反做弊基本概念与机器学习的应用

时间 2019-12-04 标签反做弊基本概念机器学习应用

常见做弊方式：前端

机器做弊：机器刷量、任务分发、流量劫持算法

人为做弊：QQ群/水军、直接人工、诱导浏览器

常见做弊手段：框架

电商：刷单，刷信誉，刷好评，职业差评师机器学习

支付平台：洗钱，诈骗函数

广告：数据造假、刷流量（引流—广告展现—广告点击—转化）学习

自媒体、社交软件：刷粉丝、刷点击、阅读量大数据

搜索：seo使用做弊手段刷排名（案例：2015蜻蜓FM “普罗米修斯”、“宙斯”函数，修改转化量、流量在前端展示欺骗投资人，被对手反编译识破）网站

广告做弊涉及的点击类型分类：搜索引擎

一、按照是否找商品找服务为目的

二、是否按照是否恶意，有无真实转化为依据

（CPC基于点击计费的模式、CPA基于成交的点击进行收费）

点击四大分类：

无效点击（没有造成转化的意愿，仅仅浏览）

恶意点击（必须识别出来）

转化点击（真实意愿点击）

误点（不是以找商品为目的，例如内部人员点击，须要识别出来）

人群划分：

误点：员工、广告主本身、竞品销售中介、爬虫

恶意点击：同行、同行朋友、联盟站点、机器

反做弊策略应对框架：

数据层：鼠标轨迹行为、指纹数据、案例库、行为数据

特征层：离散指标、连续指标

行为识别层：点击识别模型、异常监测模型、流量识别模型、关系图模型、人群识别模型

策略应对层：规则

三层监控指标体系，提早预警：

运营指标监控：投诉率、转化率、撞线速率/频率、消耗速率、经过率

规则监控指标：拦截率、准确率、覆盖率

异常监控指标：IP维度、Cookie维度、计费名维度、广告维度、设备维度、鼠标轨迹维度

分类监控、分级响应：

一、针对监控状况、采用四级响应机制；

二、红色：很是严重，须要自动化采起短时间策略应对，例如临时黑名单机制

三、橙色：较为严重，短信举报，要求4h内完成分析和短平快策略压制，后续进一步处理

机器学习在反做弊应用几个案例：

如关联规则、决策树模型：策略挖掘—规则自动提取

肯定建模问题：自动发现规则、辅助策略设计；

应用：挖出的规则，上线到离线反做弊系统

评估指标：支持度、置信度、覆盖率、拦截率

流量聚类分级模型，kmeans算法：异常行为识别—流量识别

做用：支持流量分级打折策略

例如分为如下类别，特征描述：

一、主要为品牌浏览器入口，转化效果较好，用户粘性较高；

二、电话转化很好，包括搜索行为、点击行为、转化行为都较好；

三、电话转化良好，没有明显的特征异常；

四、电话转化率略偏低，详情页其它点击行为略偏少；

五、详情页停留时间短，转化效果特别差；

六、电话转化很好，无其它任何转化行为，专门点击商业广告，行为很是异常；

七、点击率高，无转化，行为很是异常.

如半监督或图算法：异常行为识别—基于关系发现：

做弊用户标签比较少，如何召回更多的数量？

借助半监督或图算法发现更多的异经常使用户·

SVM算法：异常行为识别—销售识别

做用：识别用户是否销售

数据来源：行为日志，聊天记录

惩罚系数C，选择RBF函数做为kernel的参数gamma的选择.

粗粒度搜索：

　　对大数据集，先选择一个较小的子集作粗粒度搜索；

　　选择较大的步长，找到一个最优的（c,g）局部区域.

细粒度搜索：

在局部区域，以较小的步长，找到全局最优的（c,g）

如图论与余弦距离：搜索引擎防做弊

图论：做弊的网站通常须要相互连接，以提升本身的排名，这样在互联网大图中造成一些Clique.图论中有专门发现Clique的方法.

余弦距离：那些卖连接的网站，都有大量的出链（这些出链的特色和不做弊的网站出链特色大不相同）.每个网站到其余网站的出链数目能够做为一个向量，计算余弦距离.发现，有些网站的出链向量之间的余弦距离几乎为1.通常来说这些网站一般是一我的建的，目的只有一个:卖连接.