机器学习笔记3——分类

分类
在这里插入图片描述
常见应用:信用评估、医学诊断、笔迹识别、人脸识别
讲解例子:识别一只新的宝可梦的种族
一只宝可梦为一个实例x=(xhp,xatk,xdef,xspatk,xspdef,xspeed)其中每一项为该实例的一个属性(特征)。
我们能否通过这些属性(特征)预测一只未知宝可梦的种类?
理想方法:
·模型(函数)
在这里插入图片描述
·Loss函数
在这里插入图片描述
即函数f在训练数据上得到错误分类结论的次数
·通过训练找到最好参数以确定模型
方法:Perceptron, SVM(日后学习)
如何进行分类,能否用线性回归的方法解决这种分类问题?
以二分类为例,类别1对应数字1,类别2对应数字-1,当值更接近1时我们将其归为1类,当值更接近-1时我们将其归为2类。(为了方便表示先只考虑两种属性对其类别的影响)因此模型为:b + w1x1 + w2x2 = 0 用训练数据训练模型,我们期待得到的边界如下。
在这里插入图片描述
但是由于存在>>1和<<-1的样本,模型为了减小平均误差会发生倾斜。

在这里插入图片描述
即模型会将一些符合分类要求但不靠近分类边界的数据当作误差。
而当扩展到多分类时,如果我们用1表示类别1,用2表示类别2,用3表示类别3…由于数字1和2相较于1和3更近,暗示了类别1和类别2之间存在更紧密的联系,而事实上未必如此,因此这种表示是不准确的。

在这里插入图片描述
以二分类为例,如何通过训练数据确定一个未知的x属于类别1和类别2的概率呢?
在这里插入图片描述
该概率就是x属于类别1的概率(x属于类别2的式子同理)。其中P(C1)和P(C2)即为样本中两类中的实例占总样本的比例,我们要解决的问题是如何求P(x|C1)和P(x|C2)即在类别1和类别2中出现x的概率。由于x是新的数据,并不存在于训练数据中,但是我们不能认为x在两个类别中出现的概率为0。每个实例x都由一个特征向量表示,我们假设样本中每个类别的数据服从高斯分布。
在这里插入图片描述
该函数的输入为特征向量x,输出为x属于该类别的概率。参数决定了该函数的形状。那么我们如何确定参数和呢?我们采用极大似然估计法即有很多组参数都能产生样本中的数据,我们要找到产生样本中数据概率最大的参数。
【注解】:
(1)高斯分布:正态分布又名高斯分布,若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
(2)极大似然估计:一般说来,事件A发生的概率与某一未知参数a 有关,a取值不同,则事件A发生的概率也不同,当我们在一次试验中事件A发生了,则认为此时的值应是t的一切可能取值中使P(A)达到最大的那一个,极大似然估计法就是要选取这样的t值作为参数的估计值,使所选取的样本在被选的总体中出现的可能性为最大。

在这里插入图片描述
第一个函数表示样本中所有数据出现的概率,第二个式子表明我们的目标是求出使第一个式子的值最大的参数。参数确定即模型确定。
在多分类的情况下由于参数过多很容易出现过拟合的情况,我们可以采用相同的而去找不同的μ来减少参数。

步骤小结
在这里插入图片描述
(本例中采用高斯分布模型,根据数据的实际情况也可以选用其他不同的分布)
【思考】:
在这里插入图片描述

在这里插入图片描述 在这个模型中我们确定了四个参数从而得到了w和b,那么我们能够直接找出参数w和b呢?(逻辑回归)