技术永远是把双刃剑。
策划&撰写:巫盼
时隔九月,OpenAI终于放出了旗下最强NLP模型GPT-2模型的完整代码,包含15亿参数。
这套模型最初是被OpenAI的工程师用来根据文本中已知的单词预测下一个单词,后来经过大量数据训练后,成为了现在的AI文本生成系统。该模型不仅可以根据给定的文本流畅地续写句子,甚至可以形成成篇的文章,写作水平堪比人类,被外界成为新一代“编故事”神器。
另外,GPT-2模型还可以执行机器翻译、问答、阅读理解和总结段落等任务。之前,OpenAI 已经发布了不同参数大小的三种GPT-2模型,今年2月,他们原本要释出完整的GPT-2模型,期望GPT-2能够被用来开发成写作AI助手或是语言理解系统等应用。
但是许多研究人员持反对意见,认为该套模型会被用于制造假新闻,甚至被极端主义团体滥用进行意识形态的干涉影响,技术引发的争议让OpenAI决定暂缓完整代码的开源,仅发布较小型的模型、范例和技术白皮书,供外部研究人员使用。
经过几个月的调查,OpenAI表示还未发现改模型被滥用的证据,所以选择释出模型的完整代码。同时他们也开发了一种检测模型,来防范模型产生的造假文件,面对由GPT-2 生成的文本,检测模型能够带来95%的成功率。
但OpenAI的研究人员也表示,随着文字生成器的输出质量持续提升,被滥用的可能性就会提高,而检测的挑战性也更高。
所以,后续OpenAI会持续研究语言模型存在的偏差,并通过参与Partnership on AI的“Responsible Publication Norms for Machine Learning”项目,与其他AI研究人员共同探讨此类问题。