机器学习笔记2——多变量线性回归

关键字:等值线,特征缩放,归一化,多项式线性回归

1.定义:

1.1 基函数为特征

顾名思义,一般情况下,多变量线性回归就是变量不止一个。因为是线性的,所以可以表示为

其中的ai是有实际意义的,表示当Xi变化一个单位后,对应的Y的变化

这里x0为1

将x和seta都写成列向量的形式都是n+1维列向量,就是有n+1个特征,数据集有m个数据

2.利用梯度下降法求解多变量线性回归



就是:这里假设有m个数据集

1.2 基函数为特征的组合

此时仍然是线性模型,只是基函数发生变化

2、特征缩放

2.1 目的

当数据集里面的每个数据的n个维度数值上差太多是,就会使得梯度下降法很慢,等值线很扁

 像这样:

比如吧seta1以千为单位,但是seta2以0.1为单位,两个不统一

2.2步骤

先进行特征缩放,然后发现等值线差不多是个圆,这是理想的情况

通常限制的范围是[-1,1],当然,大一些或者小一些都可以,但是区间范围也不能太小了或者太大

3.均值归一化

相当于把正态分布标准化

假设数据集的m个数据,n维特征中的其中一个特征xi,m个数据的这个特征分别为xi1,xi2,...,xin,他们的均值为,标准差为,归一化就是


然后的值就会在[-1,1]之间了

4.多项式线性回归

此时均值归一化就无比重要

一般写法:


这里的是一个实数,可以为整数,也可以为分数


这是观看吴恩达网易云机器学习系列做的笔记

图片来源于视频课件