反做弊基本概念与机器学习的应用

常见做弊方式:前端

机器做弊:机器刷量、任务分发、流量劫持算法

人为做弊:QQ群/水军、直接人工、诱导浏览器

 

常见做弊手段:框架

电商:刷单,刷信誉,刷好评,职业差评师机器学习

支付平台:洗钱,诈骗函数

广告:数据造假、刷流量 (引流—广告展现—广告点击—转化)学习

自媒体、社交软件:刷粉丝、刷点击、阅读量大数据

搜索:seo使用做弊手段刷排名(案例:2015蜻蜓FM “普罗米修斯”、“宙斯”函数,修改转化量、流量在前端展示欺骗投资人,被对手反编译识破)网站

 

广告做弊涉及的点击类型分类:搜索引擎

一、  按照是否找商品找服务为目的

二、  是否按照是否恶意,有无真实转化为依据

(CPC基于点击计费的模式、CPA基于成交的点击进行收费)

 

点击四大分类:

无效点击(没有造成转化的意愿,仅仅浏览)

恶意点击(必须识别出来)

转化点击(真实意愿点击)

误点(不是以找商品为目的,例如内部人员点击,须要识别出来)

 

人群划分:

误点:员工、广告主本身、竞品销售中介、爬虫

恶意点击:同行、同行朋友、联盟站点、机器

 

反做弊策略应对框架:

数据层:鼠标轨迹行为、指纹数据、案例库、行为数据

特征层:离散指标、连续指标

行为识别层:点击识别模型、异常监测模型、流量识别模型、关系图模型、人群识别模型

策略应对层:规则

 

三层监控指标体系,提早预警:

运营指标监控:投诉率、转化率、撞线速率/频率、消耗速率、经过率

规则监控指标:拦截率、准确率、覆盖率

异常监控指标:IP维度、Cookie维度、计费名维度、广告维度、设备维度、鼠标轨迹维度

 

分类监控、分级响应:

一、  针对监控状况、采用四级响应机制;

二、  红色:很是严重,须要自动化采起短时间策略应对,例如临时黑名单机制

三、  橙色:较为严重,短信举报,要求4h内完成分析和短平快策略压制,后续进一步处理

 

机器学习在反做弊应用几个案例:

如关联规则、决策树模型:策略挖掘—规则自动提取

肯定建模问题:自动发现规则、辅助策略设计;

应用:挖出的规则,上线到离线反做弊系统

评估指标:支持度、置信度、覆盖率、拦截率

 

流量聚类分级模型,kmeans算法:异常行为识别—流量识别

做用:支持流量分级打折策略

例如分为如下类别,特征描述:

一、  主要为品牌浏览器入口,转化效果较好,用户粘性较高;

二、  电话转化很好,包括搜索行为、点击行为、转化行为都较好;

三、  电话转化良好,没有明显的特征异常;

四、  电话转化率略偏低,详情页其它点击行为略偏少;

五、  详情页停留时间短,转化效果特别差;

六、  电话转化很好,无其它任何转化行为,专门点击商业广告,行为很是异常;

七、  点击率高,无转化,行为很是异常.

 

如半监督或图算法:异常行为识别—基于关系发现:

做弊用户标签比较少,如何召回更多的数量?

借助半监督或图算法发现更多的异经常使用户·

 

SVM算法:异常行为识别—销售识别

做用:识别用户是否销售

数据来源:行为日志,聊天记录

惩罚系数C,选择RBF函数做为kernel的参数gamma的选择.

粗粒度搜索:

  对大数据集,先选择一个较小的子集作粗粒度搜索;

  选择较大的步长,找到一个最优的(c,g)局部区域.

细粒度搜索:

       在局部区域,以较小的步长,找到全局最优的(c,g)

 

如图论与余弦距离:搜索引擎防做弊

图论:做弊的网站通常须要相互连接,以提升本身的排名,这样在互联网大图中造成一些Clique.图论中有专门发现Clique的方法.

余弦距离:那些卖连接的网站,都有大量的出链(这些出链的特色和不做弊的网站出链特色大不相同).每个网站到其余网站的出链数目能够做为一个向量,计算余弦距离.发现,有些网站的出链向量之间的余弦距离几乎为1.通常来说这些网站一般是一我的建的,目的只有一个:卖连接.