【机器学习】 多层感知机

【单层感知机】
在这里插入图片描述
但是单层感知机无法解决线性不可分的问题,要想解决线性不可分的问题,需要用多层感知机。

【多层感知机】
通用近似定理:如果一个多层感知机具有线性输出层和至少一层隐藏层,只要给予其足量的隐层神经元,它可以以任意精度近似任何一个从有限维空间到另一个有限维空间的Borel可测函数。通俗地来讲,多层感知机可以看成是一个万能的函数近似器。

多层感知机的学习:
超参数:神经元个数、隐藏层个数、激活函数等。
主要学习内容:连接神经元的边的权重。

【反向传播算法】
目标:找到让损失函数最小的损失函数(比如均方误差损失函数),把损失看成由参数做自变量的函数,随机地初始化一组参数,然后向着减小损失函数的方向迭代地修正已有参数,直到损失不再减小或达到指定步数。
在这里插入图片描述
在这里插入图片描述
其中,η是学习率,偏导数可以用链式法则计算。

【优化算法】
梯度下降法是用全部的训练样本计算误差,然后进行权重更新,更新速度比较缓慢。
随机梯度下降法是随机选择单个样本点计算误差,计算误差后马上进行权重的更新,但是单个样本得到的梯度不够稳定,容易抖动地特别厉害。
小批量随机梯度下降法是随机选择小批量样本点计算误差,是上述两种方法的折中。

【Dropout】
训练过程中随机丢弃一些非输出节点,防止过拟合。相当于集成若干个子网络,让模型更加健壮。

参考资料:机器学习-北京理工大学-中国大学mooc