【深度学习1】Logistics回归在数学思维上感性理解

时间 2021-06-11 标签吴恩达深度学习深度学习

a.样本的表示（x，y）：

其中：

i：第i个样本（图片）

m：样本的总数

n：图片的总像素点

b.Logistics实现的思想

思想加工：

给1个样本，可以得到结果y，y的范围在0~1之间，表示是否的概率程度

其中权重w和拦阻器b是网络的参数

为什么要在y输出外层加sigmoid函数？

因为wx+b的结果总是不近人情的，会远大于1或为负数，通过sigmoid函数，可以说对结果进行了归一化的处理，能通过数值的大小判断，0~1之间的程度。

c. Loss Function and Cost Function

思想加工：

Loss Function：指的是计算得到的y_calculation与样本给定的y_label之间的误差；其中函数的表示方法有很多种，但最终离不开y_calculation与y_label的比较：表示的是第i个（单个）样本的loss

Cost Function:指的是与参数（w,b）相关的总体成本函数，一般是m个样本的Loss值取平均，衡量该轮（w,b）的效果

评定完（w,b）的好坏的意义是？

比较(w,b)的总体成本，再通过梯度下降的方法，不断迭代（w,b）,从而找到最优解参数（w,b）。

d.Gradient Descent（找最好的w与b）

思想加工：

梯度下降法的框架思想

一个（w,b）对应的是唯一的J(w,b),尽管w不是一维数据，但是能简化成一维实数理解，对应的f[w,b,J(w,b)]是一个凸函数（对于Logistics而言），此时一定存在一个最优解，使得MIN{J(w,b)},得到对应唯一的(w,b)

在梯度下降法使用之前，要对（w,b）进行初始化，由于为凸函数，所以初始化的参数为随机任意值即可。随机一点的(w,b)可以知道当前的J(w,b)值，再通过梯度下降的方式，逐渐下降到最低点，即为全局最优解。

梯度下降法是怎么实现的？

通过求偏导的方式实现

具体公式如下：

其中：

a:学习率(自行设置，决定每次迭代的速率)

感性理解：

若去掉b参数，只保留w参数，那么为凸函数（此处的凸函数与我们平时高数理解的相反）

若初始化为左边的一点，则dJ(w)/dw<0,通过梯度下降函数，得到新的w更大，对应的J(w)越来越向右边的最低点靠近，直到到达

若初始化为右边的一点，则dJ(w)/dw>0,通过梯度下降函数，得到新的w更小，对应的J(w)越来越向左边的最低点靠近，直到到达

e.总的设计思路

1、初始化w与b参数

2、每次一个m大小的样本数据来训练，而且样本中带有标签y_label(0|1)

3、进行wx+b,再用sigmoid函数归一化，得到y_calculation（0~1）

4、每一个样本数据进行Loss函数，m个样本Loss求平均得到Cost函数，即为总体成本J(w,b)

5、再通过总体成本进行梯度下降法迭代，直到得到min{J(w,b)},此时的w,b为之最优解