机器学习十大算法之一:SVM支持向量机

机器学习十大算法之一:SVM支持向量机


1 SVM思维导图

SVM(updating).png-152.7kB

2 SVM

2.1 SVM概念

                SVM:寻找到一个超平面使样本分成两类,并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数(每个特征的权重)。
                                                                                                        01SMV求解目标.png-42.1kB

2.2 确信度

                与超平面的距离表示分类的确信度,距离越远则分类正确的确信度越高:
                                                                                                        02确信度.png-77.5kB

确信度的推导 - 超平面间的距离

  •                                                                                                     03确信度推导.png-61.1kB
    超平面1: w x 1 + b 1 = 0
    超平面2: w x 2 + b 2 = 0
    向量的运算: x 2 = x 1 + t w
    w x 2 + b 2 = w ( x 1 + t w ) + b 2 = w x 1 + t | | w | | 2 + b 2 = b 1 + t | | w | | 2 + b 2 = 0
    可以求出t: t = ( b 1 b 2 ) / | | w | | 2
    计算距离: D = | | t w | | = | t | | | w | | = ( b 1 b 2 ) / | | w | | 2 | | w | | = ( b 1 b 2 ) | | w | |
    超平面线性方程: w T x + b = 0
    样本中任意点到超平面距离:
    r = w T x + b | | w | |

    x 是样本点,不在超平面上,所以 w T x + b 不等于0

2.3 超平面

2.3.1 样本分类

                                                                                                        04分类1-1.png-91kB

对每个向量有:

  • w T · x i + b >= 1 , x i 属于类1
  • w T · x i + b <= 1 , x i 属于类2
  • 所以 y i ( w T · x i + b ) >= 1

2.3.1 样本的正确分类 - 拉格朗日方法

前面计算的确信度,超平面之间的距离,有如下近似:
最大化 2 | | w | | ,等价于最小化 1 2 | | w | | 2

a. 样本的正确分类:

  m i n w , b 1 2 | | w | | 2
s . t . y i ( w T x i + b ) >= 1 , i = 1 , 2 , 3 , . . . , m

b. 样本正确分类(拉格朗日方法):

f ( x ) = w T x + b
L ( w , b , α ) = 1 2 | | w | | 2 + i = 1 m α i ( 1 y i ( w T x i + b ) )

c. 对偶问题:原问题极小极大到对偶而难题的极大极小

m i n w , b m a x α L ( w , b , α ) > m a x α m i n w , b L ( w , b , α )