• Welcome to the world's largest Chinese hacker forum

    Welcome to the world's largest Chinese hacker forum, our forum registration is open! You can now register for technical communication with us, this is a free and open to the world of the BBS, we founded the purpose for the study of network security, please don't release business of black/grey, or on the BBS posts, to seek help hacker if violations, we will permanently frozen your IP and account, thank you for your cooperation. Hacker attack and defense cracking or network Security

    business please click here: Creation Security  From CNHACKTEAM

机器学习的视频学习记录p1-p50(吴恩达)


Recommended Posts

因为之前是txt录制的,可能比较粗糙。

学习算法原理和工程应用。

(因为你要自己设计算法,所以门槛更高。上一行转自通用y .)调api和调包人。

哔哩哔哩视频链接

过程中待看待理解的博客、文章、概念、疑问

后面会删除当前的学习和补充。

或者暂时不能理解某个重要概念,就放在这里,以免拖进度。希望你不要存太多。

正文(p1-p50)

避免太长

- p1

web自动化网络和自动化技术的发展-数据集

自然语言处理

计算机视觉

一个广为接受的定义

- p2

举了跳棋的例子,提炼出机器学习的两个定义。

任务体验体验绩效测量绩效测量

学习算法:(无)监督学习我们的教/让学习

强化学习

推荐系统

- p3

给定回归问题回归问题的监督学习正确答案

离散值

分类问题【离散值输出(0or1)】列出了恶性和良性肿瘤的离散输出值。

Xy轴年龄肿瘤大小双变量特征

如何应对无限特征支持向量机算法SVM(哈哈,悬念)

用算法预测回归问题回归:目标预测的连续输出

分类问题:目标预测离散值输出

-P4无监督学习

无监督学习:都有相同的标签或者没有。

数据集被分成两个聚类):聚类算法

应用:大型计算机集群、个人网络、市场客户分类、天文星云分布分析。

鸡尾酒会问题:计算机语音识别领域

一行svd核心代码就足够了。

[W,s,v]=svd((repmat(sum(x.x,1),size(x,1),1)。x)* x’);

14年的视频采用Otcave(后来为了高效迁移到C /JAVA)或者matlab。

-P5型号的描述

回归:预测一个特定的数字输出预测一个实值输出

小写字母m训练样本数训练样本数

x=“输入”变量/特征

y='输出'变量/'目标'变量

X (I)上标I是训练集的索引。

小写h:假设函数(早期,标准术语)函数function

一元线性回归(模型)

-P6成本函数

成本函数

按照弹幕的说法,最小化预测值与实际值之差与之前的1/2m的平方误差,就是在求导时消除平方。

符号表达式

J(0,1)代价函数的平方误差函数

-P7成本函数(一)

回顾一下。

真的没有必要为了一点额外的补充而打开弹幕。一堆评论慢,哈哈。

这一节相当简单。

-P8成本函数(二)

image

本视频假定您熟悉等高线图或等高线图形。

=blog/2863200/202205/2863200-20220501230730900-1688553564.png"/>
sort of bowl shape 碗状函数

麻烦,不知道怎么设置图注 就先这样居中and分隔符吧 本来想着分隔符不多余回车可以加粗,但这样会加入目录中,其实也行但不想
呜 改个颜色 居中还得写代码 还是不熟悉操作 跟typora有差异 大概吧 找不到该颜色的鼠标操作或快捷键 font color='red' 尖括号双标签

等高线表示 J 两参数作为x,y轴 椭圆线上的J值相等
相当于从上朝下看这个碗 盆地 中间是最小的
我们真正想要的是高效的算法:自动寻找代价函数J最小值 对应的theta0,1
--------p9 梯度下降
image

gradient descent 梯度下降的函数定义

用它最小化任意函数J arbitrary任意的
a local minimum 局部最小值
希望大家能把这个图像想象成一座山
确实 高数里有梯度这个概念
局部最优解 呜 一下子就想到了贪心
convergen 收敛
:=赋值
a learning rate学习率 以多大幅度更新参数
simultaneous update同步更新 实现算法
--------p10 梯度下降知识点总结
就课程目的而言,偏导数符号与d/d theta 1 完全一样
以y=x*x 图像为例, o1=o1-a(postive number) 故向左移 o1=o1-a(negative number) 增大 故向右移
上面一行用于解释偏导数的意义
如果a学习率太大,那么梯度下降可能越过最低点 甚至无法收敛、发散 视频中不震荡的原因,或许是:导数在变大
如果已经在局部最优点 梯度下降将不改变参数的值 导数为0 嗐,我还以为到左右都有可能呢

--------p11 线性回归的梯度下降
image

梯度下降与线性回归公式

image

线性 梯度中j==0 1 的特殊情况(想不起该放哪了)

梯度下降+代价函数-->线性回归的算法(用直线模型拟合数据)
Don't worry about it.哈哈
关于o1 o2 的求解没看懂(j=1 2 j是θ下标) 看式子懂了 一个用上面的求导,另一个用下面的(一次函数代入代价函数中)
凸函数 碗状函数 弓形 局部最优解==全局最优解
Batch 梯度下降 遍历look at整个训练集的样本
image

线性回归不可适用于分类问题

--------p12 3.1矩阵和向量
据说是线性代数学的不错第3章可以跳过,那就先跳过

--------p18 4.1多功能 最后的一般略懵,但可能是不知道用途吧
4个特征 x^(2)就表示第二行的特征 是一个四维向量
vector 向量
x^(i)_j(j是下标):第i个训练样本中第j个特征量的值
定义额外的第0个特征向量
向量内积 转置
多元线性回归
hθ(x)=θTx(T是上标)= θ0x0+θ1x1+θ2x2+…+θnxn (惯例 使x(i)_0=1 约定)
把上述的参数看为一个n+1维的θ向量
--------p19 4.2多元梯度下降法
如何设定假设的参数
数学也没啥特别能去记的
--------p20 4.3多元梯度下降法演练-特征缩放
gradient descent梯度下降 的 实用技巧
保证 不同的特征取值在相近的范围scale -->能更快地收敛
例如两个特征地范围差距非常大 画出的椭圆(J(θ)的等值线)会十分瘦长(忽略θ0)
例如 房屋面积范围a<=2000 卧室个数b 1~5
特征缩放即为 a/=2000 b/=5
通常 把特征的取值约束到-1~+1的范围 a little bigger is fine
-0.0001 小数点后一堆0念哦哦哦
均值归一化 normalization
标准化 减去平均值后再除 如常见的房屋面积为1000 卧室数量为2 x1=(size-1000)/2000
x1=(x1-u1)/s1 u1是训练集特征x1的平均值 s1为max-min(这个即可) 或标准差

--------p21 4.4多元梯度下降法演练-学习率
alpha α
debug(调试) choose learning rate α
x轴梯度下降算法的迭代次数 y轴J(θ) 每一步迭代后J(θ)都应该下降
自动收敛测试 tell you 梯度下降算法是否已经收敛 找一个合适的阈值(但不好确定,不如看曲线图),例如一次迭代后J(θ)变化小于1e-3即可判断收敛
若上升图像或下降后又上升循环的图像 通常选择较小的α
to choose α ,try 3X bigger(三的倍数) 0.001 0.003 0.01~~
--------p22 4.5特征和多项式回归
转化:定义一个新特征 例如房屋价格与房屋的长和宽相关,而这两个特征可以相乘合并为面积作为单特征
阶数过高会过拟合,导致不精准 哈哈,对这个有一定体会 之前的知乎问题,问一个数列的规律(男朋友发的什么意思) 下面就一本正经地用多项式分析 哈哈
设计不同的特征 如房屋价格与面积 若用二次函数最后会下降 三次函数或一次函数+根号x(最后的上升更加平缓)
--------p23 4.6正规函数(区别于迭代方法的直接求法) 没看懂式子
m是训练样本数量 n是特征数量数 n+1 化成矩阵x,y
西瓜55p θ=(XT*X)-1 * X^T*y 没讲证明 还有就是自己再线性代数上的知识残缺
弹幕中一直提到最小二乘法
不需要特征缩放
the cost of inverting the matrix逆矩阵计算 O(n^3)特征数量1e4用梯度下降 不然慢
矩阵求逆 高斯消元法
对于线性回归模型 正规方程法可以替代梯度
--------p24 4.7正规方程在矩阵不可逆情况下的解决方法
optional material 选学材料(不可逆情况少见) 较深
不可逆矩阵 称为 奇异或退化矩阵 singular or degenerate matrices
求逆 pinv(pseudo-inverse)伪逆 inv
不可逆(计算机上来说):1.一个特征可用另一个特征表示,则有一个多余 (如换单位) 行列式里两行成比例(线性相关) 则结果为0
2.too many features m>=n 特征太多但训练样本太少 解决方法:delete some features,or use regularization正则化
--------p25 4.8导师的编程小技巧
首先,我想实践,但不想学这两个软件,matlab倒还能接受; 不知道还能做吗,回头查

--------p26 5.1基本操作
https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
跳过这一章吧 上面的是python作业 (大佬改的)大佬笔记:https://zhuanlan.zhihu.com/p/43478657
https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes 哈哈 同一个人,可看知乎(上一行)

--------p31 5.6矢量 ******
听6.1弹幕讲这节或许有用
计算两个向量的内积 转置其中一个向量 直接乘(见截屏) 从循环转到矩阵运算 数值线性代数库
theta.transpose()*x;
完蛋,第二个的转变没有看懂,以后学了学线性代数再看吧

--------p32 6.1分类
y {0,1} 0:"Negative Class(无)" 1:"Postive Class"
想起来一个函数,忘叫什么了在左边是-1 右边是1 大概
所以把线性回归运用到分类问题里,不是一个好主意
:它的这个证明真的很妙,简洁易懂 阈值 起始点和终点的中点形成直线,与阈值点相交,会偏移,导致不一定分类成功
线性回归 可能会使结果>1或<0
image

logistic回归算法

logistic回归算法 不要被回归迷惑 本质是分类算法
--------p33 6.2假设陈述
sigmoid function == logistic function g(z) = 1/(1+e^(-z)) hθ(x) = g(θ^T*x) want: 0<=hθ(x)<=1

感觉看了这么久视频,还是停留在简单概念层面 有点慢了!

--------p34 6.3决策界限 decision boundary
我们不是用训练集来定义的决策边界,我们用训练集来拟合参数θ
--------p35 6.4代价函数
image

代价函数与log函数

拟合logistic回归模型的参数θ
凸函数:https://www.jianshu.com/p/4883280f666f 即f′′(x)≥0 ,则f(x)是凸函数。 Hessian矩阵的正定性

--------p36 6.5简化代价函数与梯度下降
交叉熵函数
最大似然估计
视频中的代价函数求导:https://blog.csdn.net/JUNJUN_ZHAO/article/details/78564557
没看懂 代入θj的更新公式
线性回归 和 logistic回归 更新公式一致,但本质(定义)不同
--------p37 6.6高级优化
Conjugate gradient共轭梯度法 BFGS L-BFGS 高等数值计算 看弹幕就不学了
线搜索算法
讲述了octave中运行算法的过程
--------p38 6.7多元分类 一对多
image
分为多个分类器,其余设为负(每次判断是否是某个样本) 最后再比较每个点的概率来预测属于哪个

--------p39 7.1过拟合问题
哈哈,终于到了

up主推荐

之前高三看B站科普视频看到过 up主:KnowingAI知智(视频很短
再推荐一个up主 3Blue1Brown 相对较长 硬核知识 据说讲的深入浅出 只看过几个视频

high bias 高偏差 欠拟合
high variance 高方差 过拟合 波动
image
image
过拟合会导致泛化(上图字幕即为解释)能力弱
直男,暖男,舔狗的区别(弹幕)
哈哈,这例子和弹幕绝了,5参数,四阶多项式
可以画热力图,知道变量之间的相关性,把两两相关性较高的去掉一个,也可以用PCA等降维
人工选择减少变量 正则化
--------p40 7.2代价函数
image
image
如果λ(lambda)太大 会导致每个θ太小 最终成为水平线
自己用博客记录后,图片的引入更多了,要是能方便地调整大小,如放在左边占一般就更好了

--------p41 7.3线性回归的正则化

附录

术语单词

state-of-the-art 前沿的
implement 实现
term 术语
let's say 假设说
svm 支持向量机
LDA 线性判别降维算法
RNN 循环神经网络
CNN 卷积神经网络
我是懒蛋,后来遇到的新词就直接放在每节课里了,后期总结或完善 并加入解释、链接

触类旁通

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now