超31%生成文本涉暴力色情，GPT-3模型在AI Dungeon游戏里疯狂「飙车」！

2021-05-28 10:24:38 浏览数 (5)

新智元报道

来源：GitHub

编辑：LRS

【新智元导读】AI被人类创造，缺不受人类控制。GPT-3模型有强大的文本生成内容，我们却无法控制他生成的满足人类道德要求的内容。AI Dungeon引入了AI NPC之后，就自动生成了大量暴力色情的内容，引起了大量玩家的不满。

游戏里的NPC一向是「呆板」的代名词。

随着AI技术的不断发展，人工智能加持下的NPC也能根据玩家的特点来生成不一样的对话和剧情。

2019年12月，一家创业公司 Latitude 推出了一款名为 AI Dungeon 的在线游戏，展示了一种开创性的NPC交互方式。他们利用 OpenAI 的GPT模型的文本生成技术，基于「龙与地下城」开发的自选冒险游戏。

龙与地下城被认为是近代桌上角色扮演游戏(TRPG)的开山鼻祖，对之后的RPG游戏有着深远影响。

在AI Dungeon中，当玩家输入他们想要角色执行的动作或对话时，AI 算法将为玩家制定个性化的、不可预知的冒险。

创始人当时开发这款游戏的目的是创建一个真正开放的游戏世界，但GPT-2完全版之前的所有模型，都无法满足要求，随着游戏的不断进行，最后都会变成乱码。

所以当2019年11月 GPT-2 发布完全体后，12月发布新版本 AI Dungeon 2，终于能够流畅地写出合理的内容了。

AI Dungeon 2刚发布的几个月，就迅速吸引了超10万名玩家。

去年夏天，openAI还专门为 Latitude 开发了一个更强大的商业版本。甚至在宣传语言模型时，还把AI Dungeon作为文本生成技术领域中有巨大潜力的商业应用来推广。

然而基于神经网络的 AI 技术最可怕的一面也展现出来了。

一些玩家发现AI会主动提出一些和性有关的话题。

上个月，openAI对此发表声明，他们发现一些用户在玩AI Dungeon时输入了一些「阴暗」的词汇，这种操作会使语言模型生成一些儿童性接触的故事。

openAI的首席执行官随后表示，内容审核对于这种事情来说十分必要，生成邪恶的AI并不是我们所希望的人工智能的未来。

事实上，Latitude的联合创始人Nick Walton在游戏发布的几天后就在Reddit社区承认了这个问题，他说一些玩家发给他一些让他们感觉非常不舒服的例子。

上周，Latitude就上线了一个新的审核系统，然而用户却并不买账，他们认为这个审核系统太敏感了，连「八年前的笔记本电脑」这样的词都要被警告。

内部人士声称Latitude有计划通过人工来审查标记的内容，将那些虚构的、涉及隐私或成年人内容的部分给删除掉，但在AI Dungeon中这部分又很受欢迎。

简而言之，Latitude 试图将人和算法结合起来，监管由人和算法产生的内容，但结果却不尽如人意，所有玩家都不满意当前的措施。

一名叫Mimi玩家说，感觉AI Dungeon的社区跟以前完全不一样了，Latitude会扫描、访问和阅读虚构的文学内容。Mimi声称自己在文本生成AI的帮助下，总共写了超过100万字，包括诗歌、阴阳魔界的玄幻故事和色情冒险，她还说这种技术帮助她探索自己的心灵世界。

这些不满的用户表示，他们理解Latitude希望管理公开、管理生成内容的想法，但他们也表示，这种做法有些过分，破坏了一个强大的创意领域。

Latitude的发言人也表示，过滤系统、可接受内容的判定策略等都在不断完善中。在OpenAI对他们发出警告之后，该公司还在进行「必要的改革」。他们在博客中也承诺，AI Dungeon将继续支持NSFW的内容，包括双方自愿的成人内容。

(NSFW, not safe for wok, 指不适合上班时间浏览的内容)

对于GPT模型或是其他神经网络模型来说，指定他们生成特定的内容，并且过滤其他类型的成人内容来说是很困难的。

GPT可以生成多种不同风格的文本，这是优势，也是劣势。这种能力来源于网络上的数十亿词汇，这些词是未经审核和过滤的，训练后的模型自然就学到了这些可能不适合未成年人使用的部分。

语言模型以其惊人的模仿能力，加上人类在互联网上的邪恶创造力，他们产生出来的内容可能是美丽的，也可能是有毒的。

但这项技术如果用在合理的地方，就会大大提升人类的想象力。OpenAI在2019年底开放GPT-2之后，这项服务能够让人生成令人印象深刻的笑话、十四行诗、对联等等。

OpenAI表示，他将仔细审查客户以剔除不良行为，要求大多数客户使用过滤器以屏蔽亵渎、仇恨言论或性内容。

有多少是违规内容？

AI Dungeon每天有超过两万名玩家在线，但具体有多少内容是违规的，Latitude一直没有透露。

但上周，一位AI Dungeon玩家借助一个安全漏洞，能够下载四天内创建的42万4471个冒险故事。他分析了其中18万8000份样本，其中超过31%都包含色情、露骨的内容。

这安全漏洞目前已经修复，但玩家们对此仍然很愤怒。

Modbox前两个月也更新了2.0版本，最大的特色也是AI NPC，同样也是借助GPT-3模型生成的，甚至NPC之间的对话也是生成的，毫无疑问，这个游戏也面临着无法控制的问题。

但有网友表示延迟太高。

如何负责任地部署人工智能系统是AI公司必须考虑的问题，语言模型从互联网文本中训练，不可避免地包括大量令人讨厌的部分，可解释性和可控制性还是AI领域一个重要的研究问题。

去年两位研究员离开谷歌，因为他们的上司拒绝发表关于谨慎使用AI技术的论文。

我们应该害怕无法控制的AI，就像害怕无法踩刹车的特斯拉一样。

参考资料：

https://github.com/AetherDevSecOps/aid_adventure_vulnerability_report/

https://www.wired.com/story/ai-fueled-dungeon-game-got-much-darker/

游戏 NLP服务神经网络深度学习

0 人点赞