人工智能取代人类的言论一直甚嚣尘上,而深度学习算法通过大量的样本数据也能帮助人工对图像、视频、音频中的信息做出识别,本次采访邀请到网易易盾的资深算法专家李雨珂,他将会为大家解答深度学习在实际应用中的样本攻防问题以及短期内人工审核在内容安全领域的不可替代性。
文/ 李雨珂
整理 / LiveVideoStack
LiveVideoStack:李雨珂你好,感谢接受LiveVideoStack的采访,能否向LiveVideoStack的读者简单介绍下自己和负责的工作?
李雨珂:LiveVideoStack的读者你们好,我是来自网易易盾的人工智能算法工程师,网易易盾是国内领先的内容安全和业务安全服务商。我个人很长时间都在从事算法应用相关的工作,目前主要负责推进人工智能算法在多媒体内容审核中的应用,包括了借助深度学习方法自动鉴别图像、视频、音频中的不良信息。
LiveVideoStack:从个人经历来看,你曾从事过电商领域会员营销的算法工作,与现在的深度学习图像算法相比两者在工作内容上有哪些不同?
李雨珂:会员营销算法主要针对用户未来行为、偏好的预估,目前往往是传统机器学习方法和深度方法结合使用。图像算法和会员营销算法相比在特征、模型和评估上会有一些差异。特征方面,图像的特征都是从整图中提取的,不在需要额外输入信息,而会员的属性、历史行为等特征需要额外进行关联和收集,从因果关系上来说,一张图片的内容决定了它的性质,而一个用户的属性、历史行为信息和他未来将要发生的行为之间的关联性其实不是很强。模型方面,图像更多是空间上的建模,而会员算法需要考虑时序方面的建模。评估方面,图像任务往往可以构建出相对充分的测试集,而会员营销算法的评估更依赖线上的AB测试。
总体来说,会员营销算法的难度在于问题本身的不确定性,而内容安全领域内图像算法的难点主要在于小目标、模糊目标和多尺度问题。实际上,除了图像算法外,网易易盾在用户相关的算法方面也有较好的积累,在内容安全、业务安全场景中也发挥着重要的作用。
LiveVideoStack:提到深度学习大众往往都会将其和人脑智能联系起来,两者在你看来有哪些相同和不同的地方?
李雨珂:我们对大脑的认识是是极其有限的,深度学习和大脑的工作机制能够建立一定的联系,比如感受野、层级结构的概念等等,但这种联系更多是感官上的联系,生物大脑的复杂程度是现有的深度学习网络不可比拟的,单独一个神经元的结构和性质已经足以让科研工作者投入长期的研究了。
从学习过程来看,深度网络学习认识猫和狗的区别需要非常大量的样本,而大脑只需要学习少量几个例子就可以做推理了。我个人觉得深度学习是一个非常好用的拟合器、分类器,而生物智能有更加全面的能力和潜力,包括推理方面。
LiveVideoStack:所有的深度学习模型在上线后都会存在样本攻防问题,网易易盾在这方面有哪些独到的应对策略?
李雨珂:网易易盾在这方面确实有很多投入。主要是从两个方面来做的,一个是前期预防,另一个是后期学习升级。预防方面,我们会从数据扩充、数据增强、训练方法、算法流程等方面着手,使我们的算法模型天然地可以应对一部分对抗的情况。但由于攻击的成本相对较低,样本变化新型多样,所以在后期我们会结合其他图像维度、用户维度等技术手段进行更全面的分析,从而快速有效地缓解这一类问题,此外,我们同时会回流数据进行分析、优化,继续加强模型的对抗能力。
LiveVideoStack:目前的在数据层面深度机器学习还不能做到对数据100%准确率的识别,对小部分嫌疑类型数据通过模型后还需要进行人工的二次审核,随着技术的发展,深度学习能否做到完全替代人工审核?
李雨珂:从审核准确率上来看,我们发现机器其实在图像任务上是可以接近甚至超过人类的,但机器可能会在人类容易判断的例子上犯错,结合刚才提到深度学习和人脑关系的问题,机器更像是死记硬背,而人工拥有举一反三的优势。
我觉得实际操作过程中需要机器和人工更加有效地配合来提升审核的效果,机器可以协助人工减轻审核负担,人工可以帮助机器提升自动化效果。由于内容安全领域对审核结果有非常高的要求,而人工有不可替代的优势,例如人工在简单样例上不容易犯错,并且没有样本攻防的问题,所以机器完全取代人工短期来看并不现实。网易易盾拥有专业的内容审核团队,拥有完善的审核运营策略,是易盾服务效果的重要保障。
LiveVideoStack:网易易盾的深度学习图像算法在内容安全领域相比其他厂商有哪些核心优势?
李雨珂:网易易盾图像算法在内容安全领域长期深耕细作,根据实际业务需求高效地、集中地进行了效果优化。在数据层面,我们积累了海量的UGC数据并进行了有效的样本挖掘;在算法层面,我们针对业务场景做了很多网络结构、训练方法、模型融合上的定向优化,能够召回大量困难样例;在效果保障方面,我们拥有可靠的算法效果测试经验和完善的测试流程。我觉得我们的核心优势并不是某一个小点,而是在解决内容安全相关问题的过程中对每一个算法细节都有高质量的把控。
LiveVideoStack:5G商用会致使数据流量爆发式增长,这会给深度学习算法带来哪些挑战?网易易盾对此都做了哪些准备?
李雨珂:这个问题也正是网易易盾正在关心的问题,数据的爆发式增长会给算法服务带来巨大的压力,易盾算法团队在保证算法效果的同时也持续关注算法性能的提升,方法上主要是从模型压缩和算法流程优化两方面来进行的,目前来看,我们的算法服务每过一个季度都会产生非常显著的性能提升。另一方面,数据的增长也对算法的确定性提出了更高的要求,否则留给人工二次审核的数据量会非常庞大,易盾算法团队也在不断努力来提高机器正确识别的比例。通过算法性能和算法输出确定性的提升,网易易盾有信心迎接爆发式增长流量的考验。