大数据技术_ 基础理论 之 数据挖掘与分析

3.1 数据挖掘概述

3.1.1 数据挖掘概念

20世纪80年代末,数据挖掘(Data Mining,DM)提出。

1989年,KDD 这个名词正式开始出现。

1995年,“数据挖掘” 流传。

从科学定义分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。

从技术角度分析,数据挖掘就是利用一系列的相关算法和技术,从大数据中提取出行业或公司所需要的、有实际应用价值的知识的过程。知识表示形式可以是概念、规律、规则与模式等。

准确地说,数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。
在这里插入图片描述
3.1.2 数据挖掘常用算法
在这里插入图片描述
在这里插入图片描述
3.1.3 数据挖掘应用场景

在这里插入图片描述
在这里插入图片描述

3.1.4 数据挖掘工具

根据适用的范围,数据挖掘工具分为两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑数据、需求的特殊性。对任何应用领域,专业的统计研发人员都可以开发特定的数据挖掘工具。

在这里插入图片描述

3.2 分类

分类是一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型(分类器),目的是根据数据集的特点把未知类别的样本映射到给定类别中。数据分类过程主要包括两个步骤,即学习和分类。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.2.1 贝叶斯决策与分类器

在这里插入图片描述
在这里插入图片描述
3.2.2 SVM算法
在这里插入图片描述
在这里插入图片描述
3.2.3 案例:在线广告推荐中的分类

在这里插入图片描述
在这里插入图片描述

3.3 聚类
3.3.1 非监督机器学习方法与聚类

聚类(clustering)就是将具体或抽象对象的集合分组成由相似对象组成的为多个类或簇的过程。由聚类生成的簇是一组数据对象的集合,簇必须同时满足以下两个条件:每个簇至少包含一个数据对象;每个数据对象必须属于且唯一地属于一个簇。

聚类分析是指用数学的方法来研究与处理给定对象的分类,主要是从数据集中寻找数据间的相似性,并以此对数据进行分类,使得同一个簇中的数据对象尽可能相似,不同簇中的数据对象尽可能相异,从而发现数据中隐含的、有用的信息。

在这里插入图片描述
3.3.2 常用聚类算法

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.3.3 案例:海量视频检索中的聚类

在这里插入图片描述

3.4 关联规则

关联规则是数据挖掘中最活跃的研究方法之一,是指搜索业务系统中的所有细节或事务,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得存在于数据库中的不为人知的或不能确定的信息,它侧重于确定数据中不同领域之间的联系,也是在无指导学习系统中挖掘本地模式的最普通形式。

3.4.1 关联规则的概念

一般来说,关联规则挖掘是指从一个大型的数据集(Dataset)发现有趣的关联(Association)或相关关系(Correlation),即从数据集中识别出频繁出现的属性值集(Sets
of Attribute Values),也称为频繁项集(Frequent
Itemsets,频繁集),然后利用这些频繁项集创建描述关联关系的规则的过程。
在这里插入图片描述
3.4.2 频繁项集的产生经典算法
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.4.3 分类技术

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.4.4 案例:保险客户风险分析
在这里插入图片描述

在这里插入图片描述

3.5 预测规模

预测分析是一种统计或数据挖掘解决方案,包含可在结构化与非结构化数据中使用以确定未来结果的算法和技术,可为预测、优化、预报和模拟等许多其他相关用途而使用。

时间序列预测是一种历史资料延伸预测,以时间序列所能反映的社会经济现象的发展过程和规律性,进行引申外推预测发展趋势的方法。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
3.5.2 时间序列预测

在这里插入图片描述
在这里插入图片描述
3.5.3 案例:地震预警
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
3.5.3 案例:地震预警
在这里插入图片描述
在这里插入图片描述

3.6 数据挖掘算法综合应用

3.6.1 案例分析:精确营销中的关联规则应用
在这里插入图片描述
3.6.2 挖掘目标的提出
在这里插入图片描述
3.6.3 分析方法与过程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
到此我们了解了大数据的常见概念及算法、应用场景。