在阿里“解放”鉴黄师是一种怎样的体验

2009 年，主要从事数字信号和图像处理研究、博士刚刚毕业的薛晖拿到了阿里巴巴的 offer，那一年淘宝的全年交易额已经达到 2083 亿元，薛晖激动地搓搓小手，阿里巴巴的网站上有大量未被挖掘利用的数据，比如照片、视频、语音以及非结构化的文本，如果能让机器做到看清和读懂这些信息，一定是一件非常有意义和有价值的事。

薛晖的构想很美好，要将图像识别的技术应用到阿里巴巴的搜索、广告以及安全审核中。然而，正经如薛博士，万万没有想到，公司先给了他一项重要的任务：解放千千万万奋斗在电脑前的鉴黄师们。

“我来的时候，要解决的最大问题是淘宝的审核问题，淘宝当时有很多违规图片，色情图片或是其他违法图片。鉴别文字时，我们还能通过关键词或者变体词汇来审核，但是对待图片，完全没有能力，都靠人工。”薛晖对宅客频道说。

所以，接下来宅客频道要讲述的是十年 AI 大佬如何从“解放”鉴黄师起步的故事。

【阿里安全图灵实验室负责人薛晖】

一

有些学霸选专业，哪里分数高，就去哪里。

十年前，阿里巴巴搜索部技术很牛，于是，薛晖雄心勃勃地来到搜索部，并在 2010 年，与两个男同事提出了一个非常创新的方案：将搜图应用在电商场景，比如用户搜索时设置颜色导航，只要搜一件格子衬衫，蹦出一个调色板，点选颜色后，就会出来颜色一样的格子衬衫，他们甚至提出了现在非常流行的“以图搜图”的设想。

想象很美好，现实很残忍。那会，多数人手里还拿着诺基亚，超过 1 M流量，可能要被运营商收走 5 块钱，这样“超前”的业务理念夭折了。

深度学习技术和高性能计算服务器并未成熟，移动端的各类应用也未普及，薛晖还觉得，自己对业务痛点和场景的理解不足，对技术天花板的判断不足，特别是当两者遇到矛盾时找不到可以妥善解决的方法。

随着淘宝业务量的大量级提升，包括商品和社区板块的 UGC 信息量增长很快，原有的规则加人工的审核模式无法满足需求，也就是说，几十个淘宝小二（鉴黄师）面对数据海量增长，筋疲力竭。阿里内部愈发发现，安全更加重要，以淘宝安全为基础，阿里集团安全部正式成立。

这个部门吸引了薛晖的注意力。

学霸内心一盘算，阿里是一个典型的技术要与业务高度结合的公司，要把之前的技术推下去，得有应用场景啊！鉴于之前在搜索部初试反击黄赌毒有一定效果，薛晖觉得，自己推行的技术在安全领域可能比较容易落地，于是，他主动申请转岗到阿里安全部。

薛晖把黄图鉴别和以图搜图的技术用到了这里。最早，他采用的是利用黑样本图片找到类似图片的方法，并逐渐加上了 OCR 和人脸识别技术，当然，这些都是基于传统技术，当初并没有深度学习技术的应用。

比如，当时薛晖等人是这样区别一张色情图片与正常图片的：

有大面积的接近皮肤颜色的像素像素之间是有连通性而不是很分散纹理特征接近皮肤存在类似躯干比例的矩形或椭圆皮肤区域是否集中在人脸以下的特定位置等

所有这些特征的权重组合通过机器学习模型决定，也因此，机器通过颜色、纹理、形状来识别黄图，大量肉色的沙发、地板会被“无辜牵连”，机器鉴黄也只能识别正经脸的苍老师，动漫版、大幅度倾斜的小黄图无法识别。

薛晖还面临刚起步需要“证明自己”的问题——这项业务看起来还没有那么重要，大家不相信他们可以做出来什么，所以薛晖等人要不到研究的钱和资源。比如，他们要想申请一台几万块的物理训练机，要把报告打到高层老板那里。

要想证明项目可行，就要提效省钱。

虽然上述首次使用的基于统计模型的机器学习方法现在早已被迭代，但在过去，它能把效率提升几十甚至上百倍。“当时全人工审核没法筛选图片，降人力是最关键的，也是最直接的。”薛晖说，几年间，数据量呈线性增长，刚开始负责人工审核的小二是几十个人，现在依然是几十个人。

二

薛晖一边解放着人肉鉴黄师的人力，一边迎来人工智能发展的大势。

2016 年，Alpha-go 战胜了李世石，谷歌也正式发布了基于神经网络的机器翻译系统，神经网络通过各种应用正在重塑图像识别、自然语言处理等领域。同一年，阿里安全部将薛晖所在的整个基础算法团队更名为“阿里安全图灵实验室”。

薛晖忙着将负责业务的模型往深度学习上的迁移，一边与团队一起将人工智能技术落地到更多的场景，如知识产权、身份核验以及各种基于人脸识别技术的 IOT 应用等。

比如，他们将这套鉴黄体系以产品形式推了出来——有“AI 鉴黄师之称的阿里巴巴“绿网”用人工智能识别网络上包括色情、暴力在内的违规信息，通过人工智能、深度学习等技术，识别千万张正常图片与色情图片，最终生成一个智能鉴黄模型。

淘宝店铺迈向实人认证也是其中的应用之一。刚开始，上传到后台的信息都由人工比对，两个人是不是同一个人？身份证号码是否和人匹配？2016 年，实人认证进入了完全自动化时代，很少有人知道，一个机器大脑正在处理这个庞大的信息库。店铺用户上传的所有信息经过机器之手，人类却无权调用。

薛晖所在的团队在证明可以“提效省钱”的基础上，面临了“赚钱”的挑战。

上面提到的“绿网”是在阿里提出生态战略的背景下被阿里云“集成”的技术，这款提供内容安全、实人认证的云服务产品推出伊始，瞄准的是阿里体系的生态企业，现在也包括阿里云上的客户。

“本来对内服务的产品，走到到一个充分面向市场竞争的环境，一下子还不太适应。”薛晖发现，在阿里内部场景积累的经验和模型并不可以直接拿来使用，尤其是面对云上形形色色的非电商行业客户。从阿里内部跳出来看，“绿网”的竞争对手并不是传统意义的巨头企业，而是各类做计算机视觉、自然语言处理的独角兽和创业公司。

没什么别的好办法，只有不断在标准化、通用性、技术先进性上打磨产品。对于“被集成”的绿网，要靠业绩说话，薛晖对宅客频道透露，绿网现在每年为阿里云贡献了不少收入。

证明了自己对业务的重要性后，阿里安全图灵实验室从二十几人一下跃升到几十人的规模，并且在北京建立了新的小分队，薛晖不断在北京和杭州间来回，让新团队跟上节奏。

三

他们的节奏不得不提起来了。

对薛晖而言，更多技术的落地并没有那么容易。光拿下阿里杭州园区的门禁，他们就费了一番力气。园区的行政部门的同事对使用门禁刷脸有顾虑：

识别率到底高不高？园区里这么多人，误识别了怎么办？无人值守这些人脸识别设备时，会不会有人就拿着照片或者手机屏幕直接破解？上班人流高峰期，过人脸识别这一关快不快？不要大家都挤在一起上不了班。最重要的是，你让我们增加高清摄像头，成本会不会蹭蹭上涨？

薛晖带着人一步一步去说服，通过一些数据和 ROI 的分析说服了业务愿意试点，一开始是在一个卡口上进行，为了取得最好的调试效果，工程师们自己扛着摄像头到现场进行参数调试和角度安装，甚至要考虑安装在室外的闸机是否受到环境光照影响，还要人工审核、分析每一个错误识别的案例，到底哪里出了幺蛾子。

把摄像头放在线下的外部商场里，提供线下新零售的安全解决方案更难。

首先是成本控制问题，不能用太贵的摄像头，还要解决人群、人体、货架的遮挡，每个店的地理环境甚至都有影响，比如，有些店是长廊形式，但有些店面是完全开放的，甚至没有明确的边界，入口和出口的数量不一，摄像头摆放的角度和数量都有讲究，而这些都只是为背后的“安全 AI 大脑”助力的触手。

薛晖等人还要解决的是“人”都很难解决的问题。

人工智能技术在很多场景能应用好依赖于几个条件：第一，场景比较封闭，是一个比较容易定义的问题。第二，有大量的标注数据。第三，计算能力。

线上结构化的信息可以告诉你，那些是垃圾账号，哪些注册地和登陆地时常修改，客户下单的正常、非正常路径是哪些，依靠这些数据，AI 可以洞悉一切不安全。但是，到了线下，小偷可以从任何一张门进来，买货之前可能有无数正常的路径，还可以躲在各种遮挡背后。

上面那些条件很难成立，薛晖只能再次向实际的保安或安全人员学习抓小偷的经验，再用机器实现。

“现在我们有团队直接在商场里点对点做，就是不停地去调现场的问题，不停地跟他们的店长、店员、安全人员沟通，这是一个非常复杂的问题。”薛晖说。

除了内容安全、知识产权保护、实人认证与身份核验、安防以及新零售的线下安全，薛晖还想把 AI 推到更垂直的安全场景中。

3 月 30 日 18 时，四川省凉山州木里县一个名为雅砻江镇立尔的村落村，发生严重的森林火灾。30 名灭火员牺牲，其中 27 名消防员，最小的才 18 岁。

薛晖认认真真想了两天，以前开玩笑说要用 AI 解放全人类，这种高危的场景下更应该有 AI 的应用。比如，火灾防控也会涉及到很多图像和视觉的问题，是否有更好的制定战术控制火势的方法？

“30 个人员牺牲，这代价是非常大的，我女儿小学班的家长里有人是消防员，曾经组织过小学生和家长去参观消防队怎么工作，所以我也特别想到这个点，这是非常重要的工作，我们身边也会有人在做这件事情，我有时候在想，这属不属于 AI 安全或者是安全 AI ，让我们今天从事的工作更安全，这也是保护人。”薛晖说。

十年前，薛晖隔壁实验室的同学现在已经做出了卓越的成就——嫦娥四号向地球传回了世界上第一张近距离拍摄的月背影图像。

有些人“上了天”，薛晖想做的，是让人工智能和安全“落了地”。

4 月 10 日，坐在宅客频道编辑面前的薛晖聊了这些故事。18 天后，阿里安全图灵实验室将 AI 图像识别技术应用在 AI 安全厨房解决方案，这个值守厨房的“AI 防火员”开启了薛晖梦想的第一步。

神经网络人工智能深度学习人脸识别智能鉴黄

0 人点赞