首提跨模态代码匹配算法，腾讯安全科恩实验室论文入选国际AI顶会NeurIPS-2020

时间 2021-05-20 标签腾讯安全数据挖掘

人工智能领域顶级学术会议NeurIPS 2020（Neural Information Processing Systems）将于12月7日-12日在线上举行。在近日NeurIPS正式发布的论文入选名单中，腾讯安全科恩实验室聚焦利用AI算法解决二进制安全问题的《CodeCMR: Cross-Modal Retrieval For Function-Level Binary Source Code Matching》，凭借首次提出基于AI的二进制代码/源代码端到端匹配算法的创新研究成功入选，揭示了“AI+安全”领域的又一突破探索。

作为国际机器学习和计算神经科学领域公认最具影响力的顶级会议之一，NeurIPS汇集了时下人工智能和自然神经信息处理等领域最前沿的科研成果，被中国计算机学会 (CCF)推荐为A类Top会议，每年都能吸引来自全世界AI领域的研究者参会和进行前沿成果分享。

新一代信息技术的“爆发式”普及应用，在造就更为广阔数字空间版图的基础上，也带来了更为瞬息万变的网络威胁态势。AI技术以其在数据分析、知识提取、智能决策等方面的独有优势，已成为近年来网络安全寻求创新突破的重要探索方向。据Gartner预测，到2020年，人工智能在网络安全领域应用比例将由10%上升为40%。

安全系统的部署、响应的效率及准确性直接关乎其防护的有效性，而从计算机系统的最基础层上看，程序员编写的源代码程序向计算机能识别的二进制语言的转化与执行，则是影响系统效率的关键。为更好地提升安全部署的效率和准确率，腾讯安全科恩实验室就在本次入选NeurIPS-2020的论文中，聚焦二进制代码-源代码的交叉领域，首次提出了一种基于AI的二进制代码/源代码端到端算法模型：CodeCMR框架，以解决传统算法匹配准确率不高的问题，并为安全研究人员致力寻找源代码的逆向分析提供新思路。

与传统算法仅提取字符串、立即数特征进行匹配的做法不同，论文提及的CodeCMR模型能够实现对代码间隐藏语义特征的自动提取，从而达到提升二进制代码-源代码跨模态检索匹配效率的目的。CodeCMR框架能够以不同模型对源代码特征和二进制代码特征两大模块的语义、字符串、立即数等三大输入特征进行向量计算，并以在基础上用拼接+BatchNorm方式最终实现高效匹配转化。其中，在语义特征识别中，端到端的GNN模型表现出更强的健壮性，对于**传统算法高专家经验的痛点起到关键作用。与此同时，在两大模块的向量采样阶段，Norm weighted sampling 与随机采样和distance weighted采样方法相比也表现出了更好的匹配效果。这种融合训练的方法对于大幅提升二进制代码/源代码的匹配准确率探索，提升工业部署效率具有极大推动作用。

（CodeCMR整体框架）

本次论文入选是腾讯安全科恩实验室继以利用图神经网络解决二进制程序函数相似性分析问题的研究成果入选AAAI 2020后，致力探索二进制安全研究的又一全新成果，也是其致力布局人工智能领域安全研究和"AI+安全"交叉场景应用的全新实践。目前，论文成果已在腾讯安全科恩实验室研发的代码检索工具BinaryAI实现了落地应用。

作为腾讯集团云与智慧产业事业群旗下一支国际一流的信息安全团队，腾讯安全科恩实验室自2018年就开始深入到人工智能领域的安全研究中，先后针对特斯拉搭载系统Autopilot高级辅助驾驶问题和AI算法与传统安全研究结合探索，分别挖掘出了业内首个实现对抗商用自动驾驶系统图像识别功能的研究案例和联合腾讯公司高校合作项目“CCF-腾讯犀牛鸟基金”发布了《深度学习在软件安全领域的应用研究》的研究课题，为促进安全与AI的深度应用提供了重要突破口。

在云计算、大数据及人工智能等技术发展趋势下，以机器学习为主要算法的AI技术显然将成为应对新安全威胁的重要手段。未来，腾讯安全科恩实验室将继续以自身的技术能力积淀和贯穿汽车、智能应用、IoT等多行业的安全实践，从瞄准实际痛点的视角，为深处数字化发展关键节点的全产业输送更多前沿技术成果和解决方案。