机器学习笔记3——分类

时间 2021-06-06 标签学习笔记机器学习

分类

常见应用：信用评估、医学诊断、笔迹识别、人脸识别
讲解例子：识别一只新的宝可梦的种族
一只宝可梦为一个实例x=(xhp,xatk,xdef,xspatk,xspdef,xspeed)其中每一项为该实例的一个属性（特征）。
我们能否通过这些属性（特征）预测一只未知宝可梦的种类？
理想方法：
·模型（函数）

·Loss函数

即函数f在训练数据上得到错误分类结论的次数
·通过训练找到最好参数以确定模型
方法：Perceptron, SVM（日后学习）
如何进行分类，能否用线性回归的方法解决这种分类问题？
以二分类为例，类别1对应数字1，类别2对应数字-1，当值更接近1时我们将其归为1类，当值更接近-1时我们将其归为2类。（为了方便表示先只考虑两种属性对其类别的影响）因此模型为：b + w1x1 + w2x2 = 0 用训练数据训练模型，我们期待得到的边界如下。

但是由于存在>>1和<<-1的样本，模型为了减小平均误差会发生倾斜。

即模型会将一些符合分类要求但不靠近分类边界的数据当作误差。
而当扩展到多分类时，如果我们用1表示类别1，用2表示类别2，用3表示类别3…由于数字1和2相较于1和3更近，暗示了类别1和类别2之间存在更紧密的联系，而事实上未必如此，因此这种表示是不准确的。

以二分类为例，如何通过训练数据确定一个未知的x属于类别1和类别2的概率呢？

该概率就是x属于类别1的概率（x属于类别2的式子同理）。其中P（C1）和P（C2）即为样本中两类中的实例占总样本的比例，我们要解决的问题是如何求P（x|C1）和P（x|C2）即在类别1和类别2中出现x的概率。由于x是新的数据，并不存在于训练数据中，但是我们不能认为x在两个类别中出现的概率为0。每个实例x都由一个特征向量表示，我们假设样本中每个类别的数据服从高斯分布。

该函数的输入为特征向量x，输出为x属于该类别的概率。参数决定了该函数的形状。那么我们如何确定参数和呢？我们采用极大似然估计法即有很多组参数都能产生样本中的数据，我们要找到产生样本中数据概率最大的参数。
【注解】：
（1）高斯分布：正态分布又名高斯分布，若随机变量X服从一个数学期望为μ、方差为σ^{2的正态分布，记为N(μ，σ}2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
（2）极大似然估计：一般说来，事件A发生的概率与某一未知参数a 有关，a取值不同，则事件A发生的概率也不同，当我们在一次试验中事件A发生了，则认为此时的值应是t的一切可能取值中使P(A)达到最大的那一个，极大似然估计法就是要选取这样的t值作为参数的估计值，使所选取的样本在被选的总体中出现的可能性为最大。

第一个函数表示样本中所有数据出现的概率，第二个式子表明我们的目标是求出使第一个式子的值最大的参数。参数确定即模型确定。
在多分类的情况下由于参数过多很容易出现过拟合的情况，我们可以采用相同的而去找不同的μ来减少参数。

步骤小结

（本例中采用高斯分布模型，根据数据的实际情况也可以选用其他不同的分布）
【思考】：

在这个模型中我们确定了四个参数从而得到了w和b，那么我们能够直接找出参数w和b呢？（逻辑回归）