博士在淘宝“扫垃圾”

来源：量子位

金磊发自凹非寺

量子位报道 | 公众号 QbitAI

相信在座各位网上冲浪时，总会遇到一些“葬爱家族”式的文字：

“胃♡”、“叩—裙”、“9え”、“发嘌”……

这些词语的出现，不单单是追求个性这么简单，更多的是为了规避系统排查，以便发送成千上万条“垃圾信息”。

这样的情况在淘宝、旺旺等平台上泛滥成灾，堪称互联网时代的“牛皮癣”。

而有这么一位叫刘翔宇的博士，他和团队在阿里巴巴每天的工作，便是扫除诸如此类的垃圾。

这位博士用AI“扫垃圾”

“垃圾清理人”面对的不是散兵游勇，而是黑灰产的团伙作战。

刘翔宇这样介绍道：

他们应该是专业团伙，按照攻击时间，可以看出他们每天也有固定的上下班时间，不少人应该是学计算机相关专业出身的，甚至是像我们一样做过安全防控的人，这些人对安全防控非常了解，会用智能化手段对抗，比如他们会发测试信息，对我们的拦截做试探再做调整。

尤其是“双11”大促期间，黑灰产非常疯狂，发出的垃圾信息量比平时多几十倍。刘翔宇说：

临近大促节日的晚上，垃圾信息像消费者去抢‘秒杀’一样呼地一下就上去了。他们很聪明，知道‘双11’期间用户最活跃，这时候骚扰用户感觉效果最好，这就需要我们提前做好预案防控，把他们赶出去。

不仅如此，这种行径还会像病毒一样，发生 “变异” 。

也就是刚才提到的那种情况，用音近、形近或语义相近的字词代替，让系统无法快速识别。

面对这种情况，“垃圾清理人”也需要升级装备，更好的清除网络垃圾。

于是，在这些算法专家们的努力下，平台利用神经机器翻译和多模态词嵌入技术，不断增强垃圾文本内容风险识别系统的性能。

刘翔宇介绍：

基于主动生成的对抗平行语料，利用神经机器翻译技术，构建对抗纠错模型，可消除黑灰产发出的内容对抗扰动。

同时，利用多模态词嵌入技术提取垃圾文本的语义、语音、字形特征，并通过多模态融合机制有效地增强系统针对基于义近、音近、形近等文本变异的鲁棒性，可进一步提供系统识别准确率。

现在，他们打造的算法已能够自行理解某个字和与它音形义近似的字的关联，识别准确率高于 98% ，可有效新增识别变异违规文本内容 50% 以上。

此外，算法专家还开发了“变异垃圾语言”翻译功能，系统可以将“变异信息”翻译回正常语句。

值得一提的是，刘翔宇和团队成员的技术成果，还获得了国际顶尖AI会议的承认，被USENIX Security、ACL、WWW、SIGIR、IJCAI等收录。

关于刘翔宇

2016年，香港中文大学博士刘翔宇毕业后来到了阿里工作。同一年，《网络安全法》和《国家网络空间安全战略》正式通过，社会对于网络环境治理和网络安全的关注度迅速飙升。

刘翔宇随着这股浪潮加入了阿里安全。起初，他做着基础安全的研究。

后来，慢慢聚焦在淘宝交互内容、旺旺、直播弹幕等的内容安全治理。

如果说阿里巴巴是座城，刘翔宇和他的同事们就是专门为这座城“扫垃圾”的人。

对于清扫垃圾内容的“刘翔宇”们而言，城太大，人力不可能覆盖每一个角落。

如何对这些垃圾信息做到秒级处理，同时误判率必须在万分之五以下，刘翔宇和一众算法专家与不断变异的黑灰产斗智斗勇。

现在，刘翔宇和阿里安全的小二研发的阿里新一代安全架构核心算法，每日已能清理百万级的垃圾信息。