《数据挖掘与数据化运营实战》(第10章)

在这里插入图片描述

10 预测响应(分类)模型的典型应用和技术小窍门

预测响应模型是数据挖掘中最常见的应用模型,最直接的涉及的精细化运营的客户分层以及随后的个性化区别对待。

预测响应模型涉及的几种算法:神经网络、决策树、逻辑回归、多元线性回归。

10.1 神经网络

神经网络是一组互相连接的输入、输出单元,其中每个连接都会与一个权重相关联。在学习阶段,通过调整这些连接的权重就能够预测输入观察值的正确类标号。人工神经网络的结构大致分为两类:前向型网络、反馈型网络。

  • 前向型网络:是指传播方向是从输入和输出端,并且没有任何的反馈。
  • 反馈型网络:是传播方向上除了从输入端到输出端之外,还有回环或反馈存在。
    在这里插入图片描述

神经网络通过输入多个非线性模型,以及不同模型之间的加权互联,最终得到一个输出模型,具体来说,多元输入层是指一些自变量,这些自变量通过加权结合到中间的层次,称为隐蔽层(所谓的黑箱部分),隐蔽层主要包含的是非线性函数,也称转换函数或者挤压函数。

利用神经网络模型建模的过程中,有5个重大的影响因素:

  • 层数
  • 每层中输入变量的数量
  • 联系的种类
  • 联系的程度
  • 转换函数
    在这里插入图片描述

大部分神经网络模型的学习过程,都是通过不断地改变权重来使误差达到总误差的最小绝对值。比如,以常见的前向型网络模型为例,其设计原理如下:

  • 层数。对于一定的输入层和输出层,需要有多少个隐蔽层,从理论上,两层就足够了,在实践中,经常是一层隐蔽层就足够了。
  • 每层中输入变量的数量。输出层的变量由具体的分析背景来决定的,而隐蔽层的数量为输入数与输出数的乘积开平方,输入层的数量应该尽量精简。
  • 联系的程度。一般都选择所有层次间全部联系。
  • 转换函数。选用逻辑斯蒂回归作为主要的转换函数,因为逻辑斯蒂函数可以提供在最短时间内的最佳拟合。
  • 样本开发样本要足够充分,避免过拟合现象发生。

神经网络的优势

  • 有良好的自组织学习能力,神经网络可以根据外界数据的变化来不断修正自身的行为,对未经训练的数据模式的分类能力也比较强。
  • 有比较优秀的在数据中挑选非线性关系的能力,能够有效发现非线性的内在规律,在复杂的业务逻辑中,数据间非线性关系出现的机会远比线性关系多得多,神经网络的这种能力能够提高应用价值和贡献潜力。
  • 由于神经网络复杂的结构,在很多场合中应用的效果优于其他的建模方法,对异常值不敏感。
  • 对噪声数据有比较高的承受能力。

神经网络的缺点和注意事项

  • 神经网络需要比较长的模型训练时间。
  • 对于神经网络模型,少而精的变量能够充分发挥神经网络的模型效率,但是神经网络本身不能挑选变量,因此变量的挑选对神经网络尤其重要。
  • 模型搭建后直接投入使用,可能会得不到想要的效果,可以多尝试几种神经网络模型,多次验证后,挑选最稳定的模型进行使用。
  • 神经网络本身对缺失值非常敏感,因此需要对缺失值进行替换、删除、赋值等操作。
  • 具有过度拟合的倾向,可能导致模型应用于新数据时效率显著下降,因此需要仔细验证,在确定稳定的前提下进行使用。

10.2 决策树技术

决策树,其建模过程就是一棵树的成长,从树根、树干、树枝、树叶等。在决策树里,所分析的数据样本形成一个树根,经过层层分枝,最终形成若干个结点,每个结点代表一个结论。从决策树的根部到叶结点的一条路径就形成了对相应对象的类别预测。目前最常用的3种决策树算法分别是:CHAID、CART和ID3,包括后来的C4.5,乃至C5.0。

决策树的原理和核心要素
构造决策树采用的是自定向下的贪婪算法,它会在给个结点选择分类效果最好的属性进行分类,然后继续这个过程,直到这棵树能准确的分类训练样本,或者所有的属性被用完。决策树算法的核心是在对每一个结点进行测试后,选择最佳的属性,并且对决策树进行剪枝处理。

最常见的节点属性选择方法标准:有信息增益、信息增益率、Gini指数、卡方检验。

决策树的剪枝处理包括两种形式:先剪枝和后剪枝

  • 先剪枝:就是决策树生长之前,就认为定好树的层数,以及每个节点所允许的最少的样本数量,而且在给定的节点不再分裂。
  • 后剪枝:让树先充分生长,然后剪去子树,删除节点的分支并用树叶替换,后剪枝的方法更常用,CART算法就包含了后剪枝的方法,他使用的是代价复杂度兼职算法,即将树的代价复杂度看作是树中树叶节点的个数和树的错误率的函数,C4.5使用的是悲观剪枝方法,类似于代价复杂度剪枝算法。

CHAID算法又称卡方自动相互关系检测,采用的是局部最优的原则,利用卡方检验来选择对因变量有影响的自变量,首先对所有自变量进行逐一检测,利用卡方检验确定每个自变量和因变量之间的关系,具体来说,就是在检验时,每次从自变量里抽取两个既定值,与因变量进行卡方检验,如果卡方检验显示两者关系不显著,则证明上述两个既定值可以合并,如果合并过程中将会不断减少自变量的取值数量,知道该自变量的所有取值都显现显著性为止,在对每个自变量进行类似处理后,通过比较找出最显著的自变量,并且按自变量最终取值对样本进行分割,形成若干个新的生长节点。

CART算法采用的检验标准是基于Gini系数的,不是卡方检验的,CHAID采用的是局部最优的原则,而CART采用的是总体优化,而且CART所生产的二叉树。

ID 3算法,迭代的二分器,最大的特点在于自变量的挑选标准是基于信息增益度量的,即选择具有最高信息增益的属性作为节点的分裂属性。

决策树的应用优势

  • 决策树非常直观,决策树的搭建和应用的速度比较快,并且可以处理区间型变量和类别型变量,但是要强调的是“可以处理区间型变量”不代表“快速处理区间型变量”,如果输入变量只是类别型变量或者次序型变量,搭建速度很快,但是对于区间型变量,视数据规模,决策树的搭建速度可能会有所不同。
  • 决策树对于数据的分布没有特别严格的要求。
  • 对缺失值很宽容,几乎不做任何处理就可以应用。
  • 不容易受数据中极端值的影响。
  • 可以同时对付数据中线性和非线性的关系

决策树的缺点和注意事项

  • 决策树的最大缺点是其原理的贪心算法。
  • 如果目标变量是连续性变量,不适用于决策树,最后改用线性回归算法去解决。
  • 决策树没有像回归或者聚类那样的丰富多样的检测指标和评价方法。
  • 当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。
  • 决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱导致丧失某些重要信息。

10.3 逻辑回归技术

回归分析主要是包括逻辑回归技术和多元线性回归技术。

逻辑回归的原理:当目标变量是二元变量的时候,逻辑回归分析是一个非常成熟的主流模型算法。对于二元的目标变量来说,逻辑回归的目的就是要预测一组自变量数值相对应的因变量是“是”的概率,概率是介于【0,1】之间的,需要用到专门的Sigmoid函数。

**可能性比率(ODDS)**是指一件事情发生的概率除以这件事情不发生的概率后得到的值。

  • 可能性比率为5,说明一件事件的可能性比不发生的可能性高5倍
  • 可能性比率小于1, 说明一件事情的发生的概率低于50%
  • 可能性比率大于1,说明一件事情的发生的概率高于50%,但最大值可以是无穷大

逻辑回归使用的参数估计方法通常是最大似然法,利用最大似然法进行参数估计
对数似然函数。

回归中变量中的筛选方法

  • 向前引入法。采用回归模型逐个引入自变量,刚开始模型中没有自变量,然后引入第一个自变量进入回归方程,并进行F检验和T检验,计算残差平方和,如果通过检验,则保留该变量,接着引入第二个变量,进行计算,从理论上来说,增加了一个变量,回归平方和应该增加,残差平方和应该减小,引入一个变量前后的残差平方和之差就是新引进的该自变量的偏回归平方和,如果改值明显偏大,则说明新引进的自变量对目标变量有显著影响繁殖则没有显著影响,向前迎入法最大的缺点是最先引入回归方程的变量在随后不会被剔除出去,会对后面的引入的变量的评估造成干扰。
  • 向后剔除法。向后剔除法正好与向前引入法相反,即首先把所有的变量一次性放进回归模型中进行F检验和T检验,然后逐个删除不显著的变量,删除的原则是根据偏回归平方和的大小决定的,如果偏回归平方和很大则保留,反之则删除,最大的缺点就是可能会引入一些不重要的变量,并且变量一旦被删除之后,就没有机会重新进入回归模型中。
  • 逐步回归法。该方法综合了上述两种方法的特点,自变量仍然是逐个进入回归模型,在引入变量时,需要利用偏回归平方和进行检验,只有显著时才可以加入,当新的变量加入模型后,又要重新对原来的老变量进行偏回归平方和的检验,一旦某变量变得不显著时就要立即删除该变量,如此循环往复,直到留下来的老变量均不可删除,并且新的变量无法加入为止。

逻辑回归的应用优势
逻辑回归技术是最成熟、应用最广泛的。

逻辑回归应用中的注意事项

  • 建模数据量不能太少,目标变量中每个类别所对应的样本数量要足够充分才能支持建模。
  • 要注意排除自变量中的共线性。
  • 异常值会对模型造成干扰。
  • 逻辑回归模型不能处理缺失值,所以要对缺失值进行适当的处理,或赋值、或替换、或删除。

10.4 多元线性回归技术

线性回归是逻辑回归的基础,同时,线性回归也是数据挖掘中常用的处理预测问题的有效方法。线性回归与逻辑回归最大的不同在于目标变量的类型,线性回归所针对的目标变量是区间型的,逻辑回归针对的是类别性的变量。

线性回归模型与逻辑回归模型的区别

  • 线性回归模型的目标变量与自变量之间的关系假设是线性关系,而逻辑回归模型中的目标变量与自变量之间的关系是非线性的。
  • 在线性分布通常假设,对应于自变量X的某个值,目标变量Y的观察值是服从正态分布的,而在逻辑回归中,目标变量Y是服从二项分布(0,1分布)或者多项分布的。
  • 在逻辑回归中,不存在线性回归里常见的残差。
  • 在参数的估值上,线性回归通常采用的是最小平方法,而逻辑回归通常采用的是最大似然法。

线性回归的优势

  • 通俗易懂,多元线性回归非常容易被解读
  • 速度快,效率高
  • 可以作为查找异常值的有效工具

线性回归应用中的注意事项

  • 算法对噪声和异常值比较敏感
  • 该算法只适合处理线性关系,或者可以对自变量进行一定的转换
  • 多元线性回归的应用还有一些前提假设:自变量是确定的变量,而不是随机变量,并且自变量之间是没有线性相关的,随机误差项均有均值为0和等方差性,随机误差呈正态分布

10.5 模型过拟合及对策

模型的过拟合是指模型在训练集离得表现非常令人满意,但是一旦应用到实际的业务场景中,效果会大打折扣。

过拟合产生的原因

  • 建模样本抽取错误,包括但不限于样本数量太少,抽样方法错误,抽样时没有足够这鞥缺的考虑业务场景和特点
  • 样本里的噪声数据干扰过大
  • 决策树模型的搭建过程中,没有合理的限制和修建
  • 建模时的逻辑假设到了应用模型时已经不能成立的
  • 使用了太多的输入变量

从技术层次上解决过拟合

  • 最基本的技术手段就是合理、有效的抽样,包括分层抽样、过抽样等从而用不同的样本去检验模型
  • 事先准备几个不同时间窗口、不同范围的测试数据集和验证数据集,在不同的数据集分别对模型进行交叉检验
  • 建模时目标观测值的数量太少
  • 如果数据太少,请谨慎使用神经网络模型,只有拥有足够多的数据,神经网络模型才能够有效的防止过拟合现象的发生

10.7 预测响应模型的应用步骤

  1. 基本的数据摸底
  2. 建模数据的抽取和清洗
  3. 初步的相关性检验和共线性排查
  4. 潜在自变量的分布转换
  5. 自变量的筛选
  6. 响应模型的搭建和优化