（二）机器学习概念

时间 2021-01-08 标签机器学习

首先我想提一提数据这个概念。

数据整体叫数据集（data set）。每一个数据集都可以使用类似于表格的形式表达出，下面表格中展示了一种花的三种不同种类。

每一行数据我们称为一个样本（sample）。在上面的表格中，一行数据其实就是代表一朵花的信息这一朵花就是一个样本。除了最后一列，每一列都表达了一个样本的一个特征（feature），可以将一个特征理解为一个属性。

通常在我们的机器学习任务中，这一部分我们用一个大写的 X 来表示。而且通常这部分是一个矩阵，这个矩阵有多少行就说明我们有多少个样本，有多少列说明我们有多少属性。

其实，最后一列是一个特殊的一列，我们称之为标记（label）。在具体的表示上，我们通常使用一个小写的 y 来表示。

那么，我们具体表示如下

在这里，我们抽出萼片长度和萼片宽度这两个特性进行分析，其中萼片长度作为横轴，萼片宽度作为纵轴，在坐标系上表示如下。为了可视化方便，我们只选取了两个特征进行分析，所以可以在二维坐标中进行表示，如果我们有两个及以上的特征进行分析，那么就可以相应地在三维，四维及以上坐标上进行表示。

每一个样本的本质其实就是在这些特征所组成的一个空间中的一个点，这个空间我们就称为特征空间（feature space）。在上图中，我们可以很清晰地看出两种花在空间分布中具有极大的不同，我们可以用一条直线将其在空间中进行切分。其实分类任务的本质就是在特征空间中进行切分。

在这里特别强调的是，由于可视化的需要，很多时候我们需要把特征的数量降到两个甚至只有一个来说明这个原理，其实实际情况，通常我们对于一个数据而言，都是具有非常多的特征的，我们是可以无缝推广到高维空间的。

但是在我们机器学习的领域，很多时候特征是很抽象的。

举个栗子，对于图像识别来说，最简单的方式就是将图像的每一个像素点都看作一个特征。比如，下图是一个放大的手写的数字5，放大之后，每一个像素点都代表一个小方块，每一个小方块的深浅不同就代表了不同的值，在 Minst 数据集中，每一个数字都是 28 * 28 的图像，那么每一个图像都有 28*28=784 个特征。换句话说，我们为了描述这个图像，可以使用 784 个数，每一个数其实就是是代表着从左上角到右下角每一个像素点把它排开，这个点所对应的灰度值的深浅是多少来描述这个图形，我们可以使用这些特征来放进我们的机器学习算法。