超31%生成文本涉暴力色情,GPT-3模型在AI Dungeon游戏里疯狂「飙车」!

2021-05-28 10:24:38 浏览数 (1)


新智元报道

来源:GitHub

编辑:LRS

【新智元导读】AI被人类创造,缺不受人类控制。GPT-3模型有强大的文本生成内容,我们却无法控制他生成的满足人类道德要求的内容。AI Dungeon引入了AI NPC之后,就自动生成了大量暴力色情的内容,引起了大量玩家的不满。

游戏里的NPC一向是「呆板」的代名词。

随着AI技术的不断发展,人工智能加持下的NPC也能根据玩家的特点来生成不一样的对话和剧情。

2019年12月,一家创业公司 Latitude 推出了一款名为 AI Dungeon 的在线游戏,展示了一种开创性的NPC交互方式。他们利用 OpenAI 的GPT模型的文本生成技术,基于「龙与地下城」开发的自选冒险游戏。

龙与地下城被认为是近代桌上角色扮演游戏(TRPG)的开山鼻祖,对之后的RPG游戏有着深远影响。

在AI Dungeon中,当玩家输入他们想要角色执行的动作或对话时,AI 算法将为玩家制定个性化的、不可预知的冒险。

创始人当时开发这款游戏的目的是创建一个真正开放的游戏世界,但GPT-2完全版之前的所有模型,都无法满足要求,随着游戏的不断进行,最后都会变成乱码。

所以当2019年11月 GPT-2 发布完全体后,12月发布新版本 AI Dungeon 2,终于能够流畅地写出合理的内容了。

AI Dungeon 2刚发布的几个月,就迅速吸引了超10万名玩家。

去年夏天,openAI还专门为 Latitude 开发了一个更强大的商业版本。甚至在宣传语言模型时,还把AI Dungeon作为文本生成技术领域中有巨大潜力的商业应用来推广。

然而基于神经网络的 AI 技术最可怕的一面也展现出来了。

一些玩家发现AI会主动提出一些和性有关的话题。

上个月,openAI对此发表声明,他们发现一些用户在玩AI Dungeon时输入了一些「阴暗」的词汇,这种操作会使语言模型生成一些儿童性接触的故事。

openAI的首席执行官随后表示,内容审核对于这种事情来说十分必要,生成邪恶的AI并不是我们所希望的人工智能的未来。

事实上,Latitude的联合创始人Nick Walton在游戏发布的几天后就在Reddit社区承认了这个问题,他说一些玩家发给他一些让他们感觉非常不舒服的例子。

上周,Latitude就上线了一个新的审核系统,然而用户却并不买账,他们认为这个审核系统太敏感了,连「八年前的笔记本电脑」这样的词都要被警告。

内部人士声称Latitude有计划通过人工来审查标记的内容,将那些虚构的、涉及隐私或成年人内容的部分给删除掉,但在AI Dungeon中这部分又很受欢迎。

简而言之,Latitude 试图将人和算法结合起来,监管由人和算法产生的内容,但结果却不尽如人意,所有玩家都不满意当前的措施。

一名叫Mimi玩家说,感觉AI Dungeon的社区跟以前完全不一样了,Latitude会扫描、访问和阅读虚构的文学内容。Mimi声称自己在文本生成AI的帮助下,总共写了超过100万字,包括诗歌、阴阳魔界的玄幻故事和色情冒险,她还说这种技术帮助她探索自己的心灵世界。

这些不满的用户表示,他们理解Latitude希望管理公开、管理生成内容的想法,但他们也表示,这种做法有些过分,破坏了一个强大的创意领域。

Latitude的发言人也表示,过滤系统、可接受内容的判定策略等都在不断完善中。在OpenAI对他们发出警告之后,该公司还在进行「必要的改革」。他们在博客中也承诺,AI Dungeon将继续支持NSFW的内容,包括双方自愿的成人内容。

(NSFW, not safe for wok, 指不适合上班时间浏览的内容)

对于GPT模型或是其他神经网络模型来说,指定他们生成特定的内容,并且过滤其他类型的成人内容来说是很困难的。

GPT可以生成多种不同风格的文本,这是优势,也是劣势。这种能力来源于网络上的数十亿词汇,这些词是未经审核和过滤的,训练后的模型自然就学到了这些可能不适合未成年人使用的部分。

语言模型以其惊人的模仿能力,加上人类在互联网上的邪恶创造力,他们产生出来的内容可能是美丽的,也可能是有毒的。

但这项技术如果用在合理的地方,就会大大提升人类的想象力。OpenAI在2019年底开放GPT-2之后,这项服务能够让人生成令人印象深刻的笑话、十四行诗、对联等等。

OpenAI表示,他将仔细审查客户以剔除不良行为,要求大多数客户使用过滤器以屏蔽亵渎、仇恨言论或性内容。

有多少是违规内容?

AI Dungeon每天有超过两万名玩家在线,但具体有多少内容是违规的,Latitude一直没有透露。

但上周,一位AI Dungeon玩家借助一个安全漏洞,能够下载四天内创建的42万4471个冒险故事。他分析了其中18万8000份样本,其中超过31%都包含色情、露骨的内容。

这安全漏洞目前已经修复,但玩家们对此仍然很愤怒。

Modbox前两个月也更新了2.0版本,最大的特色也是AI NPC,同样也是借助GPT-3模型生成的,甚至NPC之间的对话也是生成的,毫无疑问,这个游戏也面临着无法控制的问题。

但有网友表示延迟太高。

如何负责任地部署人工智能系统是AI公司必须考虑的问题,语言模型从互联网文本中训练,不可避免地包括大量令人讨厌的部分,可解释性和可控制性还是AI领域一个重要的研究问题。

去年两位研究员离开谷歌,因为他们的上司拒绝发表关于谨慎使用AI技术的论文。

我们应该害怕无法控制的AI,就像害怕无法踩刹车的特斯拉一样。

参考资料:

https://github.com/AetherDevSecOps/aid_adventure_vulnerability_report/

https://www.wired.com/story/ai-fueled-dungeon-game-got-much-darker/

0 人点赞