机器学习笔记-4(逻辑回归)

课程的第六部分讲到了逻辑回归,而第五部分咱并不打算记录是因为该部分大致为Octave(数学建模软件)的大致教程,咱也看过了,总的来说还是挺简单的。

目前俺已经跟到第八部分了,其余的视频却不知道为何没有跟上,不知道什么情况,大概是安排的时间还没到还是什么的,吴恩达教授真心犀利,把课程讲解的脉络非常清晰,层层渐进。

前面我们学到了单变量线性回归、多变量线性回归和非线性回归,感觉上已经是可以解决大部分的机器学习问题了。但是其实并不是这样,这就是涉及到了监督学习的另一大分支–分类问题,例如邮件分类这种经典问题。这类问题主要是判断并分类,而并不是跟一般回归问题中输出一个具体连续的预测值。基本上来说,这两类问题分属不同的情况,但是实际上来说依然扯到回归问题。之前讲到的房价预测问题,是我们输入具体的特征,然后给出一个预测值,值域属于实数范围内,它代表了基于特征给出一个连续值(这个值中不含概率成分)。但是到了逻辑回归问题,基于特征给出的值是离散/不连续的,一般会把其值控制在0(假)~1(真),这里俺确实不知道怎么按照自己的理解去写了,等过后看看能不能把语言整理更清楚些。

Classification

分类问题

OK,既然解释到了这里,现在的情况就是如果改造咱的回归函数让他输出类别之间的概率了,这里吴恩达教授给出的是Sigmoid函数或者说Logistic函数,其实称之为S函数更贴切,因为函数图像就像个S。利用这个函数,咱们就可以轻易根据之前的线性回归方法进行逻辑回归的工作了,这个函数保证了在任何回归的情况之下,输出的0~1,也就是我们想得到的真或假。S函数的特点是其值域在0~1之间,可以用其来对判断H函数输出的概率分布。由于这个特点,咱就可以根据情况来计算事件发生的概率了,除了具体输出0~1之间的概率值之外的,咱们一般还会做一些特殊的处理,因为很多时候需要的不是具体的概率值,而就是简单的0/1(真/假),这时候0.5便是一个判断点,一般大于等于0.5即为真,小于0.5即为假,通过观察S函数,咱还会发现一点就是对应y轴0.5这个值的x轴坐标刚好就坐落在0上面,也就是说只要原H函数输出的是负数时,S函数输出必小于0.5,同理也可以得出原H函数输出大于或等于0的时候,S函数输出必大于0.5。

Sigmoid Function

S函数图像

如果线性方程坐标图中,咱们会发现0/1之间会出现一条明显的界限。这里课程里引用到了一个新的词“决策边界”,通过S函数变换之后,边界两边就是明显的0/1区别。这点很重要,函数图形展示的跟回归问题里的H方程是一样的,但是现在意思变得不一样了。之前咱是根据图像进行y值的预测,但是现在这个函数图像变成了决策边界!这就是S函数的关键作用~

Non-linear decision boundaries

非线性决策边界

so,由S函数,咱推导出了新的H函数,由于现在做的是逻辑回归,Cost函数的形式也发生变化,原来的方差法会导致非凹的情况,导致无法收敛到全局最优,所以这里用到了log函数来处理。对于为什么要用log函数呢?咱只能告诉你最好的理解方式就是看函数图像了,这个图像当y值与H函数的输出值匹配的时候,导致Cost变成0,而不匹配的时候Cost变成无限大的情况,这正好符合咱的要求,因为这不可能嘛~预测跟给定的标签不一样,所以要处罚以一个非常大的Cost值。这里的Cost函数是一个分段函数的形式,课程后面用了一个小trick把它们顺利简化为了一条方程完成,非常给力。之后的类似向量化参数和梯度下降跟之前没有多大区别,只不过是由于S函数的加入,里面的式子出现了些许变化。课程里也提到,就这样而言,是不是以为这线性回归跟逻辑回归是一样的。这样要给你打个大白叉了,因为里面的H函数已经改变了,所以这两者有着本质的不同。

Cost Function for logistic regression

逻辑回归的成本函数/非凸情况

Logistic regression cost function

逻辑回归的成本函数图像

Gradient Descent for logistic function

逻辑回归梯度下降

对于算法的优化,就是之前特征归一化依旧是可用。这里提到了一些更进阶的算法帮助我们快速去选择最小Cost,但是并没有给出具体的实现方法,因为比较复杂。所以课程给出的建议是用别人的库,而不是自己实现,所以觉得没啥好说的。

Advanced optimization

进阶算法寻找最小Cost

最后说到了,多类分类的方式:One vs all(一对多)。理解上是挺简单的,就是没选中一个类别的时候,模糊其他类别的数据(QAQ,请原谅咱喜欢使用这种形象化的说法),形成一对一的分类情况。

One vs All

一对多情况

这部分,理解看来还是不够,之后再来常改改好了。

发表评论

电子邮件地址不会被公开。 必填项已用*标注