【深度学习1】Logistics回归在数学思维上感性理解

a.样本的表示(x,y):
其中:
i:第i个样本(图片)
m:样本的总数
n:图片的总像素点
 
 
 
b.Logistics实现的思想
思想加工:
 
给1个样本,可以得到结果y,y的范围在0~1之间,表示是否的概率程度
其中权重w和拦阻器b是网络的参数
 
为什么要在y输出外层加sigmoid函数?
因为wx+b的结果总是不近人情的,会远大于1或为负数,通过sigmoid函数,可以说对结果进行了归一化的处理,能通过数值的大小判断,0~1之间的程度。
 
 
 
c.  Loss Function and Cost Function
思想加工:
 
Loss Function:指的是计算得到的y_calculation与样本给定的y_label之间的误差;其中函数的表示方法有很多种,但最终离不开y_calculation与y_label的比较:表示的是第i个(单个)样本的loss 
Cost Function:指的是与参数(w,b)相关的总体成本函数,一般是m个样本的Loss值取平均,衡量该轮(w,b)的效果
 
评定完(w,b)的好坏的意义是?
比较(w,b)的总体成本,再通过梯度下降的方法,不断迭代(w,b),从而找到最优解参数(w,b)。
 
 
 
d.Gradient Descent(找最好的w与b)
 
思想加工:
 
梯度下降法的框架思想
一个(w,b)对应的是唯一的J(w,b),尽管w不是一维数据,但是能简化成一维实数理解,对应的f[w,b,J(w,b)]是一个凸函数(对于Logistics而言),此时一定存在一个最优解,使得MIN{J(w,b)},得到对应唯一的(w,b)
在梯度下降法使用之前,要对(w,b)进行初始化,由于为函数,所以初始化的参数为随机任意值即可。随机一点的(w,b)可以知道当前的J(w,b)值,再通过梯度下降的方式,逐渐下降到最低点,即为全局最优解。
 
 
 
 
梯度下降法是怎么实现的?
通过求偏导的方式实现
 
具体公式如下:
其中:
a:学习率(自行设置,决定每次迭代的速率)
 
 
感性理解:
若去掉b参数,只保留w参数,那么为凸函数(此处的凸函数与我们平时高数理解的相反)
若初始化为左边的一点,则dJ(w)/dw<0,通过梯度下降函数,得到新的w更大,对应的J(w)越来越向右边的最低点靠近,直到到达
若初始化为右边的一点,则dJ(w)/dw>0,通过梯度下降函数,得到新的w更小,对应的J(w)越来越向左边的最低点靠近,直到到达
 
 
 
 
e.总的设计思路
 
1、初始化w与b参数
2、每次一个m大小的样本数据来训练,而且样本中带有标签y_label(0|1)
3、进行wx+b,再用sigmoid函数归一化,得到y_calculation(0~1)
4、每一个样本数据进行Loss函数,m个样本Loss求平均得到Cost函数,即为总体成本J(w,b)
5、再通过总体成本进行梯度下降法迭代,直到得到min{J(w,b)},此时的w,b为之最优解