AIGC热议以后,另一个热议的话题就是AI抄袭。
这也算是个老话题了。最开始在AI生成代码,大家都在关心码农转行是该开滴滴还是送外卖的时候,就有人说自己放在Github上的代码被AI抄袭了,圈内讨论过一阵为了训练模型,不管人家代码是什么开源协议都统统喂进去,是不是属于侵权问题。
后来AI绘画火了,画画圈我不太了解,开始还以为是个小众圈子,结果发现和人家比码农才叫小众圈子,这时又有人出来说被AI抄袭,事情很快就出圈了,现在很多画师和平台都在抵制AI绘画,甚至有的说拿来训练都不允许。
我研究AI,同时也算内容生产者,这就很纠结了。一方面我认同AI可能成为新一代的生产力工具,注意,不仅仅是工具,而且是生产力工具,这是一个很重的词。
另一方面,我也深深地明白大家对于白嫖的憎恶,现在都很爱讨论什么工作容易被AI替代,如果技不如人,不对,是技不如AI,被替代也就替代了,但如果AI是拿着白嫖我的作品来替代我,我想任谁都接受不了。
这里面涉及太多的话题,除了AI技术本身,更多的还有社会、法律和伦理。这里只聊三个问题。
1.搬运问题
就我自己对生成技术的理解,目前的生成模型不创造内容,而只是内容的搬运工。
首先说,关于AI生成原理目前界内猜想很多,但远没有到形成定论的阶段。目前主流AIGC使用的模型都是深度学习模型,是深层神经网络,这种模型架构有一个特点,效果很好,但很难解释,也就是大家都说不好为什么效果这么好,术语叫可解释性差。深层神经网络内部运作很不透明,所以也常被称为“黑盒”。深度模型越做越大,可解释性也越来越差。
没有定论,那我们想办法进行一些观察。现在大语言模型说的很多,语言模型是怎样训练的呢?自监督学习。什么叫自监督学习,给一段话,假设有十个字,盖住最后一个字,要求模型根据前九个字预测最后一个字是什么。现在名气很大的GPT模型就是这么训练的。当然也有其它变体,譬如说盖住的是中间的某个字,这就要求模型具有双向阅读能力。
这里我们不讨论技术细节,反正都是黑盒,我们凭直觉想一想,这种训练方式模型能够学到什么?我觉得是四个字,条件反射。模型要力求输出和答案一样,最好就是用肌肉记忆记住原句子,像极了过去我们背唐诗,反复念反复念,直到看到上半句就能摇头晃脑背出下半句来。反复念能不能加深对意境的体会不好说,反正条件反射是培养出来了。
背后有没有理论支持呢?有理论支持,贝叶斯条件分布,以前面一长串作为条件输入,找到概率最大的下一个字作为输出。这就是生成模型的基本原理。
那有什么问题呢?搞不清到底是真的生成,抑或只是“记串了”。
我们背诗也好,唱歌也好,应该都有过经历,会出现把两条用词差不多或者调调差不多的句子,前后拼成一句的情况,一读还挺顺口。这就是记串了。句子当然是全新的,但每个片段又都有原始出处,模型只是找到合适的片段抽取出来,再以某种形式重新拼在一起。这就是前面我说生成模型不创造内容,而只是内容的搬运工。
2.Token问题
搬运算不算抄袭呢?我想很多人都会说当然算,AI绘画的批评者专门发明了一个词批评这种行为,叫“拼尸块”。
为什么叫拼尸块?因为图像生成的原理类似,所谓的AI作画其实可能只是从现有不同的画作里面抽取片段拼在一起。这个说法有研究支持。Google、DeepMind等几家研究机构发表的论文《Extracting Training Data from Diffusion Models》已经证实,AI模型确实记住了一些训练用的原图,在部分情况下,甚至可以把整张原图重新生成出来。
可是,问题想深一层,就会变得更复杂。就文本内容来说,抄袭也好,创作也罢,肯定是由一个一个字组成的,术语称为“token”。模型是不会原创token,所使用的token必然来自数据集里的某篇文章。即使假设模型真的具有创造力,但最终能做的也不过只是在token层面进行各种组合排列,到底该算抄袭还是创作呢?
实际问题还要更复杂。token与一般意义上的字还略有差别,更接近英文中的word,对应到了中文语境应该叫“词”或者短语。如果模型生成了一首七言诗,假设每句的七个字分成三个token,分别来自于三首诗,现在模型把它们重新拼成了一句,譬如“半江花开红似火”,到底该算创作还是抄袭呢?
我感觉边界就更模糊了。
而且别忘了,咱们古人就有一种玩法叫“集句”,集句可不是一句话前抄一段后抄一段这么小家子气了,整句话都拿过来,这首诗抽一句那首诗抽一句,拼成一首“新”诗。集句这种玩法现在还有,那算不算抄袭呢?要不要把老祖宗挖出来打官司?
这就有了最后一个问题。
3.主观问题
从当前AI的技术水平来看,用“抄袭”这个词来描述AI本身恐怕就不合适。
为什么?因为AI没这本事。抄袭是个主观性非常强的行为,主观性非常重要,法律判罚就非常看重主观性。但AI还没发展出“主观性”这种本事。
我们人是怎么抄袭的呢?首先得去想,也就是脑子里先得有“抄袭”的念头,而且通常还知道抄袭属于越界行为,经过反复权衡之后,最终才决定去抄袭。抄袭的心理过程非常复杂,在我非常有限的见识里面,还没听谁说过我不是自愿,是那天喝多了,所以才抄袭的。
那么,AI有没有抄袭这种主观性呢?
我们经常问现在AI有没有意识,这个问题更进了一步,问AI有没有越界意识。没有。如果现在谁有办法让AI有意识地去抄袭,那绝对拿奖拿到手软。
不过,有人会说,AI没有意识,但是人是有意识的,人在训练AI上会不会有问题呢?
AI模型的训练方法大差不差,基本都是填鸭式灌数据,科幻作品里面的自我觉醒式训练方法还只是幻想阶段,合适不合适,现阶段也没别的办法可想。
但数据集的选取却大有文章。人在训练AI模型的时候,选什么数据加入数据集是主观的,如果故意拿了未经授权的图,或者故意无视使用协议广泛采集数据,这当然又都属于主观行为。
未经授权使用别人的图,别人的文章,行为本身就叫侵权。用来训练模型不行,用来发朋友圈同样不行。因为数据集里可能包含有侵权图片,所以不让使用AI绘画。情感因素我能理解,但我想问题的关键不在于让不让用AI模型,而在于另一个问题:
黑盒问题。
前面说过黑盒问题,学界所关心的黑盒问题是不知道模型都学到了什么,但对于其它内容生产者来说,更关心的是模型学了什么,也就是有没有使用未经授权的数据训练模型。
难吗?不难,也难。模型学了什么从学术上看并不是黑盒,我们当然知道自己给模型喂了什么,论文对于数据集的使用也是简单一列了事,谁没不会把这事当作问题。但是,AIGC一旦开始商业化,开始承载大量资本,问题就复杂。复杂在于怎样告诉别人我们给模型喂了什么,而且还能让别人相信我们说的是真的。
这个才是AIGC时代需要重点捋清的问题。