人类自动化和智能化学习测试与挑战

时间 2019-12-13 标签人类自动化智能化学习测试挑战

目前，总共有1793 个参与者参与到了测试中。一个专门为机器学习作的测试是颇有挑战性的，我相信大家都已经跃跃欲试，因此，请继续读下去。算法

那些错过测试的人，大家错过了一个极好的检验本身的机会。可是，你也能够阅读本文，看看可否解答下面问题的答案，这样你也能收获很多。api

整体结果

下图表示的是参与测试人的成绩分布，这也许会帮助你评估你的测试成绩。网络

你能够点击这里来获取全部得分。咱们有超过600人参与到了技能测试中，最高分是28分，这里还有一些其余统计量。app

平均数 14.42机器学习

中位数 16ide

众数 17函数

另外，您的得分可能和通告栏上的不同，由于咱们移除了有错误的问题，而且对每一个人都从新打分了。性能

机器学习参考文献学习

Machine Learning basics for a newbie测试
16 New Must Watch Tutorials, Courses on Machine Learning
Essentials of Machine Learning Algorithms

问题1：

在n维空间中，如下哪个方法最适用于异常点检测？

A.正态几率图

B.盒图

C.Mahalonobis 距离

D.散点图

答案：C

Mahalonobis 距离是基于卡方分布的多变量异常的程度的统计量。更多内容点击此处。

问题2

线性回归在如下哪些方面和多元回归不同？

A. 它是专门用来预测一个事件的几率

B. 拟合优度指数

C. 在回归系数的估计方面

D. 以上全部

答案：D

A：线性回归用来解决分类问题，咱们能够计算出事件发生的几率

B：整体来讲，拟合优度测试是用来测量数据与模型的一致性，咱们用逻辑回归来检验模型拟合程度。

C：拟合逻辑回归模型以后，咱们能够以他们的系数为目标，观察独立特征之间的关系（正相关或负相关）。

问题3：

引导数据的意义是什么？

A.从M个整体中有放回的抽样出m个特征

B.从M个整体中无放回的抽样出m个特征

C.从N个整体中有放回的抽取n个样本

D.从N个整体中无有放回的抽取n个样本

答案：C

若是咱们没有足够的数据来训练咱们的算法，咱们就能够从训练集中有放回的随机重复一些数据项。

问题4

“过拟合只是监督学习中的问题，对于无监督学习影响不大”这句话是正确仍是错误

A.正确

B.错误

答案：B

咱们可使用无监督矩阵来评估一个无监督机器学习算法。举个例子，咱们能够用“调整兰德系数”来评估聚类模型。

问题5：

关于选择k层交叉检验中“k”的值，如下说法正确的是？

A.k并非越大越好，更大的k会减慢检验结果的过程

B.选择更大的k会致使下降向真实指望错误的倾斜

C.选择老是能最小化交叉验证中的方差的k

D.以上全部

答案：D

更大的k会减小太高估计了真正的预期偏差的状况（由于训练层更接近整体数据集），可是会带来更长的运行时间（由于这样会接近留一交叉的极限状况），当选择k的时候，咱们也要考虑k层精度之间的方差。

问题6：

回归模型具备多重共线性效应，在不损失太多信息的状况下如何应对这种状况？

去除全部共线变量1.去除全部共线变量
去除一个变量而不是都去掉
咱们能够计算VIF（方差膨胀因子）来检验多重共线性效应，而后根据状况处理
去除相关的变量可能会致使信息的丢失。为了保证数据的完整性，咱们应该选取好比岭回归和套索回归等惩罚回归模型。

以上那些是正确的？

A. 1

B. 2

C. 2 和3

D. 2,3 和 4

答案：D

为了检查多重共线性，咱们能够建立一个相关矩阵来识别和删除具备75%相关性的变量（阈值的选择是主观的）。此外，咱们使用VIF（方差膨胀因子）来检查多重共线性，若是VIF小于4表示没有多重共线性，若是大于10则表示严重的多重共线性。咱们也可使用一个宽容量做为多重共线性的指数。

可是，移除相关变量会致使信息的损失。为了保证数据的完整性，咱们应该选取好比岭回归和套索回归等惩罚回归模型。咱们也能够在变量中增长随机噪声，这样数据会变得不同。可是这种方法会下降预测的准确性，因此要慎用。

问题7：

评估完模型后，咱们发现模型中有很高的误差。咱们怎样来减小这个误差？

A.减小模型中特征的数量

B.增长模型中特征的数量

C.增长模型中的数据点

D.B和C

E.以上全部

答案：B

若是模型误差大，说明模型相对过于简单。咱们能够在特征空间中增长更多的特征来提升模型的鲁棒性。增长数据点也会减小方差。

问题8：

当咱们创建基于决策树的模型时，咱们将有最高信息增益的节点分离出来做为属性，在下图中，哪个属性有最高的信息增益？

A. Outlook

B. Humidity

C. Windy

D. Temperature

答案：A

信息增益随子集平均纯度的增长而增长。要了解信息增益的计算，点这里阅读。你也能够查看这张幻灯片。

问题9：在决策树中，当一个节点分叉的时候，如下关于“信息增益”正确的是？

不纯的节点越少，越须要更多的信息来描述种群
信息增益能够用熵做为“1-Entropy”来推导
信息增益偏向于数值大的属性

A. 1

B. 2

C. 2 和3

D. 都正确

答案：C

想了解详情，请阅读这篇文章和这个幻灯片。

问题10：使用SVM模型遇到了欠拟合的问题，如下哪一个选项能提升模型性能？

A.增长惩罚参数“C”

B.减小惩罚参数

C.减小核系数（gamma的值）

答案：A

若是是欠拟合状况，咱们须要增长模型的复杂性，若是咱们增大C，则意味着决策边界变复杂，因此A是正确答案。

问题11:

假如咱们已经画出SVM算法中的不一样点的gamma值（Kernel coefficient）。但因为一些缘由，咱们没有在可视化界面中显示出来。在这种状况下，如下哪一个选项最好的解释了三张图的gamma值关系（图中从左向右分别是图1,、图二、图3，对应的gamma值分别是g1,、g二、g3）。

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案：C

若是gamma值高，则会尽全力去拟合数据集中的每一条数据，会带来过拟合问题。因此最合适的选项是C。

问题12：

咱们在解决一个分类问题（二值分类预测）。然而，咱们并非要获得0或1的真实结果，而是要获取每个类的几率。如今假设我有一个几率模型，而且使用一个0.5的阈值来预测结果，若是几率大于等于0.5，则认为是1，若是小于0.5，咱们则认为是0。若是咱们使用一个比0.5高的阈值，一下哪条最合适？

增长阈值那么分类器会有相同或者更低的查对率
增长阈值分类器会有更高的查对率
增长阈值会有相同或者更高的准确率
增长阈值会有更低的准确率

A. 1

B. 2

C. 1和 3

D. 2和 4

E. 无

答案：C

想了解调整阈值对查对率和准确率的影响，请参考这篇文章。

问题13：

当使用比例失调的数据（数据集中99%的negative class和1%的positive class）进行“点击率”预测的时候，假如咱们的准确率是99%，那么咱们的结论是？

准确率很高，咱们不用再作任何工做。

B.准确率不够好，咱们须要尝试构建一个更好的模型

C.没法判断这个模型

D.以上都不正确

答案:B

当使用不平衡数据集的时候，准确率不能做为性能的指标，由于99%（正如上文提到的）可能只是预测多数类别正确，可是每每重要的是少数的类（1%）。所以，对于这样的模型，咱们应该使用敏感性和特异性来描述分类器的性能。若是占少数的类别预测不许的话，咱们须要采起一些必要的措施。更多不平衡分类问题，能够参考这篇文章。

问题14：

比方说，咱们使用KNN训练观测数据较少的模型（如下是训练数据的快照，x和y分别表示两个属性，“＋”“o”分别表示两种标签）。已知k=1，leave one out 交叉验证的错误率会是多少。

A. 0%

B. 100%

C. 从0 到 100%

D. 以上没有

答案：B

在Leave-One-Out交叉验证中，咱们选取n-1条观测量做为训练集，1条观测量用来验证。若是把每一个点做为交叉验证点并找到最近的点总会获得相反的类别。因此错误率是100%。

问题15：

当咱们使用大数据集进行决策树训练的时候，一下哪一个选项能够用来减小训练时间？

增长树的深度
增长学习率
减小树的深度
减小树的数量

A. 2

B. 1 and 2

C. 3

D. 3 和 4

E. 2 和 3

F. 2, 3 和 4

答案：C

若是决策树的参数是固定的话，咱们能够考虑如下的选项。

增长深度会致使全部节点扩张，所以增长深度会致使时间变长。

在单一决策树种，学习率是不能做为一个可调整的参数的。

使用决策树时，咱们只会建一颗树。

问题16：

关于神经网络，一下那种说法是正确的？

在测试数据中增长层数可能会增长分类错误
在测试数据中减小层数总会减小分类错误
在测试数据中增长层数总会减小分类错误

A.1

B.1和3

C.1 和2

D. 2

答案：A

一般来讲，增长层数会让模型更加通常化，因此它将会在训练集和测试集上都表现更优异。但这个不是真理，在这篇文章中，笔者发现深层的网络比浅层的网络有更高的错误率。因此选项2和3都是错误的，由于这个假设不老是正确的，而1只是说多是正确的。

问题17：

假设咱们使用原始的非线性可分离SVM最优化目标函数，咱们作什么能够保证结果是线性可分的？

A. C = 1

B. C = 0

C. C = 无穷大

D.以上没有正确答案

答案C：

若是咱们使用原始的非线性可分离SVM最优化目标函数，咱们须要将C设置成无穷大来保证结果是线性可分的。所以C是正确答案。

问题18：

训练完SVM以后，咱们能够丢掉因此不支持向量的样本而不影响对新的样本进行分类。

A.正确

B.错误

答案：A

这是正确的，由于只有支持向量会影响边界。

问题19：

如下哪些算法能够借助神经网络来构建？

K-NN
线性回归
逻辑回归

A.1 和2

B.2 和 3

C.1, 2 和 3

D.无

答案：B

KNN是一个机遇实例的学习方法，它没有用来训练的参数，因此它不能用神经网络来构建
神经网络的最简单形式就是最小二乘回归。
神经网络和逻辑回归有关。主要在于，咱们能够把逻辑回归当作一层神经网络。

问题20：

请选择能够用来实施隐马尔可夫模型的数据集。

A.基因序列数据集

B.电影评论数据集

C.股票价格数据集

D.以上全部

答案D：

以上全部的数据集均可以用隐马尔可夫模型。

问题21：

咱们想在在一个百万级的数据集上构建机器学习模型，每条数据有5000个特征。但是训练这么大量的数据集会有不少困难，一下哪些步骤能够有效地训练模型？

A.咱们能够从数据集中随机选取一些样本，在样本上构建模型

B.咱们能够尝试联机机器学习算法

C.咱们能够用主成分分析来减小特征

D.B和C

E.A和B

F.以上全部

答案:F

在一个内存有限的机器上处理高维数据是一项很是费力的工做。如下的方法能够用来应对这样的状况。

咱们能够采起随机采样的方式，这意味着咱们建立一个更小的数据集。举个例子来讲，咱们能够抽取300000条数据，每条有1000个特征而后再进行计算。

咱们可使用展现在Vowpal Wabbit中的联机学习算法

咱们可使用主成分析来选取能反映最大方差的部分。

所以全部的都是正确的。

问题22：

咱们想减小数据的特征，如下哪些作法是合适的？

使用预选的方式
使用向后消除的方式
首先使用全部特征来计算模型的准确度。咱们选择一个特征，而后将测试集的该特征的数值都打乱，而后对打乱过的数据集进行预测。通过对预测模型的分析，若是模型准确率提升，则删掉这个属性
查找关联性表，关联性高的特征就能够去掉

A. 1和2

B. 2, 3和 4

C. 1, 2 和4

D. 以上全部

答案：D

l预选和向后消除是特征选择的两个经常使用的主要方法。

l若是不用上面的两种方法，咱们也能够选择3中所说的方法，这种方法应对大数据量时很是有效。

l咱们也可使用基于特征选择的关联分析，而后去除共线性特征。

问题23：

关于随机森林和梯度提高树，请选择正确的选项。

在随机森林中，中间树互相不独立，而在梯度回归树中，中间树相互独立。
他们都使用随机特征子集来构建中间树。
在梯度提高树的状况下咱们能够生成并行树，由于树互相独立。
梯度提高树在任何数据集上都比随机森林要好。

A. 2

B. 1 和 2

C. 1, 3 和 4

D. 2 和 4

答案 A：

随机森林是基于bagging而梯度提高是基于boosting
这两种算法都使用随机特征子集来构建中间树
因为随机森林的中间树互相独立，所以算法能够并行，而梯度提高树则不可能。
这个不是绝对的，不一样数据结果不一样。

问题24：

对于主成分析转换的特征，朴素贝叶斯的基本假设是成立的，由于主成都是正交的，所以是无关的。这句话正确么？

A.正确

B.错误

答案：B

这句话是错误的。首先，不相关不等同于独立。第二，转换过的特征也不必定是不相关的。

问题25：

如下关于主成分析哪些是正确的？

在PCA前必须将数据标准化
咱们应该选择说明最高方差的主成分
咱们应该选择说明最低方差的主成分
咱们能够用PCA来可视化低维数据

A. 1, 2 和4

B. 2 和 4

C. 3 和 4

D. 1 和 3

E. 1, 3 和 4

答案:A

lPCA 对数据中变量的大小是敏感的，因此在PCA以前必需要对数据进行标准化。举个例子，若是咱们将一个变量的单位从km改为cm，该变量可能会从影响很小一跃成为主成分。

l第二条是正确的，由于咱们老是选择最大方差的主成分。

l有时候用低维来画出数据是十分有效地。咱们能够选择前二的主成分，而后用散点图来描绘数据。

问题26：

在下图中的主成分的最佳数目是多少？

A. 7

B. 30

C. 35

D.不肯定

答案：B

在上图中，成分数为30时候就达到了最大的方差，因此选择B

问题27：

数据科学家常用混合算法来作预测，而后将混合算法的结果合并（也叫集成学习）。这些混合算法的输出更加健壮且具备通常性，并且比任何一种单一模型都要准确。如下哪些选项是正确的？

A. 基础模型有更高的相关性

B. 基础模型有更低的相关性

C. 使用平均加权而不是投票的方式来集成

D. 基础模型源自相同的算法

答案B：

请参阅下面的集成指南来了解细节

Basics of Ensemble Learning Explained in Simple English

Kaggle Ensemble Guide

Easy questions on Ensemble Modeling everyone should know

问题28：

咱们如何在监督的机器学习挑战使用聚类方法？

咱们能够先建立簇，而后在不一样簇中分别使用监督机器学习算法。
咱们在使用监督机器学习算法以前能够把簇的id做为特征空间中额外的特征。
咱们没法在使用监督机器学习算法以前建立簇。
咱们在使用监督机器学习算法以前不能把簇的id做为特征空间中额外的特征。

A. 2和4

B. 1和2

C. 3和4

D. 1和3

答案：B

l咱们能够在不一样的簇中使用不一样的机器学习模型，这样一来，预测的准确性可能会提升。

l增长簇的id能够提升预测的准确性，由于id是对数据很好的归纳。

所以B是正确的。

问题29

如下的说法哪些是正确的？

一个机器学习模型若是能获得很高的准确率，则说明这是个好的分类器。
若是增长一个模型的复杂度，测试错误总会增长。
若是增长一个模型的复杂度，训练错误总会增长。

A. 1

B. 2

C. 3

D. 1和3

答案C：

当类不平衡的时候，准确率不是一个很好的评价指标。而 precision 和recall是最好的评价方式。

增长一个模型的复杂度可能会致使过拟合。而过拟合会引发训练错误的减小和测试错误的增长。

问题30：

如下有关于梯度回归树算法的说法正确的是？

当咱们增长用于分割的最小样本数时，咱们老是试图获得不会过拟合数据的算法。

当咱们增长用于分割的最小样本数时, 数据会过拟合。

当咱们减小用于拟合各个基本学习者的样本的分数时，咱们老是但愿减小方差。

当咱们减小用于拟合各个基本学习者的样本的分数时，咱们老是但愿减小误差。

A. 2和4

B. 2和3

C. 1和3

D. 1和4

答案: C

最小化样本的数量，在分裂节点的地方用于控制过拟合, 过高的数值会致使欠拟合所以应该用CV来进行调整.

每棵树选择观测值的分数是经过随机采样的方式来作的。若是数值比1小一点点则会使模型健壮，并且方差也会减少。典型的数值是0.8，固然，也要根据实际状况微调。

问题31：

如下哪一个是KNN算法的决策边界？（下图从左到右分别是A,B,C,D）

A) B

B) A

C) D

D) C

E) 不肯定

答案：B

KNN算法的原理是为观测变量寻找K个最近邻居，将邻居中的多数的标签赋给观测变量。因此决策边界不会是线性的。所以，选择B。

问题32：

若是一个机器学习模型在测试集上得到的100%的准确性，是否意味着在新的测试集上也能得到100%的准确性。

A.是的，由于这个模型足够通常，能够适用于全部类型的数据

B.不是，仍然有模型不能控制的因素，好比噪声。

答案：B

答案选择B，由于实际数据不可能没有噪声，因此不可能获得100%的准确性。

问题33：

如下是交叉验证的常见方法：

i. Bootstrap with replacement.

ii. Leave one out cross validation.

iii. 5 Fold cross validation.

iv. 2 repeats of 5 Fold cross validation

若是样本的数量是1000，那么这这四种方法执行时间的排序是？

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

答案：B

Bootstrapping是一个统计的技术，属于普遍的重采样的范畴，因此只有1个验证集使用了随机采样。

Leave-One-Out cross validation的时间最长，由于咱们要n次训练模型（n是观测值的数量）

5 Fold cross validation 会训练五个模型，而训练时间和观测值数量无关。

2 repeats of 5 Fold cross validation则是训练10个模型。

所以答案选择B。

问题34：已取消

问题35：

变量选择旨在选择预测变量的“最佳”子集。当咱们选择变量的时候，考虑到系统的性能，咱们须要注意些什么？

相似的多个变量
模型的可解释性
特征信息
交叉检验

A. 1和4

B. 1, 2和3

C. 1,3和4

D. 以上全部

答案：C

若是几个变量具备很高的xiang s，则会展示出共线性。

相对于模型的性能，咱们不须要关注模型的可解释性。

若是特征有很高的信息，则会为模型带来价值。

咱们须要使用交叉检验来验证模型的广泛性。

所以C是正确答案。

问题36：

线性回归模型中的其余变量下列哪些语句是正确的关于？

R-Squared和Adjusted R-squared 都会增加
R-Squared 是常数，Adjusted R-squared 会增加
R-Squared 和Adjusted R-squared 都会减小 4.R-Squared 减小而 Adjusted R-squared 增加

A. 1和2

B. 1和3

C. 2和4

D.以上没有正确的

答案: D

R-squared 不能肯定系数估计和预测是否有误差，这就是为何咱们要评估残差图。 Adjusted R-squared 是R-squared的加强版，该方法调整了模型中预测器的数量. 若是有新方法将模型改进的概率大于预期时，Adjusted R-squared 会增长。当预测变量将模型改进的概率小于预期时，它减小。

可是 R-squared 比adjusted R-squared 有更多的问题，所以predicted R-squared被提出。

若是为模型增长一个预测器，则R-squared会保持不变或者增长。

想讨论更多，请点击这里。

问题37：

下图咱们画出了在同一个数据集上解决回归问题的三种不一样模型，从下图中咱们能够总结出什么？

和其余的相比，第一张图的训练错误最大。
最后一个是最好的模型，由于在第三张图有最小的训练错误。
第二个模型比第一个和第三个更健壮，由于它能更好的处理不可预见的数据。
第三个模型和前两个相比属于过拟合。
全部模型的性能都同样，由于咱们尚未看到测试集。

A. 1和3

B. 1和4

C. 1, 3和4

D. 5

答案：C

对于自变量X来讲，图中数据的趋势像一个多项式函数。最右边图中的多项式形式更复杂，准确率也最高，可是对于测试集则会表现不佳。而最左边的图很明显属于欠拟合的状况。

问题38：

在应用线性回归时咱们须要遵循哪些假设？

因为线性回归对于异常值很敏感，因此检查异常值是十分重要的。
线性回归要求全部变量都遵循正态分布。
线性回归假设数据中不多或不存在多重共线性。

A. 1和2

B. 2和3

C. 1,2和3

D. 以上全部

答案：D

l异常值是数据中对最终回归线的斜率影响最高的点。因此在回归分析中去除离群值老是很重要的。

l了解自变量的分布是很是必要的。自变量的正负偏态分布能够影响模型的性能，并将高度偏态的自变量转换正态将改进模型性能

l当模型包含彼此相关的多个要素时，会出现多重共线性。换句话说就是有多余因素线性回归假设在数据中应该有不多冗余或者尽量没有。

问题39：

当创建线性模型的时候，咱们会关注数据之间的关联。假如咱们在关联矩阵中找到了三对数据(Var1和Var2 , Var2和Var3 , Var3和Var1) 的关联分别是 -0.98, 0.45 and 1.23。那么从这些信息中咱们能够推断出什么？

Var1和Var2具备很高的关联性。
Var1和Var2有很高的关联度，因此它们具备多重共线性。因此咱们要将Var1或者Var2移除出咱们的模型。
Var3和Var1之间的关联值是1.23是不可能的。

A. 1和3

B. 1和2

C. 1,2和3

D. 1

答案: C

lVar1和Var2的关联值很高，因此是具备多重共线性的，所以咱们能够从中去除一个。

l通常来讲，关联系数高于0.7的说明数据具备多重共线性。

l第3个是不可能的，关联系数必定会在-1和1之间。

问题40：

若是独立和不独立的变量之间有很高的非线性且复杂的关系，那么一个树模型将会比通常的经典回归有更好的效果。这个说法正确么？

A.正确

B.错误

答案：A

若是数据是非线性的，回归模型就很难处理。而树模型则会展示出很好的效果。