如何正确争吵AIGC的抄袭问题

AIGC热议以后，另一个热议的话题就是AI抄袭。

这也算是个老话题了。最开始在AI生成代码，大家都在关心码农转行是该开滴滴还是送外卖的时候，就有人说自己放在Github上的代码被AI抄袭了，圈内讨论过一阵为了训练模型，不管人家代码是什么开源协议都统统喂进去，是不是属于侵权问题。

后来AI绘画火了，画画圈我不太了解，开始还以为是个小众圈子，结果发现和人家比码农才叫小众圈子，这时又有人出来说被AI抄袭，事情很快就出圈了，现在很多画师和平台都在抵制AI绘画，甚至有的说拿来训练都不允许。

我研究AI，同时也算内容生产者，这就很纠结了。一方面我认同AI可能成为新一代的生产力工具，注意，不仅仅是工具，而且是生产力工具，这是一个很重的词。

另一方面，我也深深地明白大家对于白嫖的憎恶，现在都很爱讨论什么工作容易被AI替代，如果技不如人，不对，是技不如AI，被替代也就替代了，但如果AI是拿着白嫖我的作品来替代我，我想任谁都接受不了。

这里面涉及太多的话题，除了AI技术本身，更多的还有社会、法律和伦理。这里只聊三个问题。

1.搬运问题

就我自己对生成技术的理解，目前的生成模型不创造内容，而只是内容的搬运工。

首先说，关于AI生成原理目前界内猜想很多，但远没有到形成定论的阶段。目前主流AIGC使用的模型都是深度学习模型，是深层神经网络，这种模型架构有一个特点，效果很好，但很难解释，也就是大家都说不好为什么效果这么好，术语叫可解释性差。深层神经网络内部运作很不透明，所以也常被称为“黑盒”。深度模型越做越大，可解释性也越来越差。

没有定论，那我们想办法进行一些观察。现在大语言模型说的很多，语言模型是怎样训练的呢？自监督学习。什么叫自监督学习，给一段话，假设有十个字，盖住最后一个字，要求模型根据前九个字预测最后一个字是什么。现在名气很大的GPT模型就是这么训练的。当然也有其它变体，譬如说盖住的是中间的某个字，这就要求模型具有双向阅读能力。

这里我们不讨论技术细节，反正都是黑盒，我们凭直觉想一想，这种训练方式模型能够学到什么？我觉得是四个字，条件反射。模型要力求输出和答案一样，最好就是用肌肉记忆记住原句子，像极了过去我们背唐诗，反复念反复念，直到看到上半句就能摇头晃脑背出下半句来。反复念能不能加深对意境的体会不好说，反正条件反射是培养出来了。

背后有没有理论支持呢？有理论支持，贝叶斯条件分布，以前面一长串作为条件输入，找到概率最大的下一个字作为输出。这就是生成模型的基本原理。

那有什么问题呢？搞不清到底是真的生成，抑或只是“记串了”。

我们背诗也好，唱歌也好，应该都有过经历，会出现把两条用词差不多或者调调差不多的句子，前后拼成一句的情况，一读还挺顺口。这就是记串了。句子当然是全新的，但每个片段又都有原始出处，模型只是找到合适的片段抽取出来，再以某种形式重新拼在一起。这就是前面我说生成模型不创造内容，而只是内容的搬运工。

2.Token问题

搬运算不算抄袭呢？我想很多人都会说当然算，AI绘画的批评者专门发明了一个词批评这种行为，叫“拼尸块”。

为什么叫拼尸块？因为图像生成的原理类似，所谓的AI作画其实可能只是从现有不同的画作里面抽取片段拼在一起。这个说法有研究支持。Google、DeepMind等几家研究机构发表的论文《Extracting Training Data from Diffusion Models》已经证实，AI模型确实记住了一些训练用的原图，在部分情况下，甚至可以把整张原图重新生成出来。

可是，问题想深一层，就会变得更复杂。就文本内容来说，抄袭也好，创作也罢，肯定是由一个一个字组成的，术语称为“token”。模型是不会原创token，所使用的token必然来自数据集里的某篇文章。即使假设模型真的具有创造力，但最终能做的也不过只是在token层面进行各种组合排列，到底该算抄袭还是创作呢？

实际问题还要更复杂。token与一般意义上的字还略有差别，更接近英文中的word，对应到了中文语境应该叫“词”或者短语。如果模型生成了一首七言诗，假设每句的七个字分成三个token，分别来自于三首诗，现在模型把它们重新拼成了一句，譬如“半江花开红似火”，到底该算创作还是抄袭呢？

我感觉边界就更模糊了。

而且别忘了，咱们古人就有一种玩法叫“集句”，集句可不是一句话前抄一段后抄一段这么小家子气了，整句话都拿过来，这首诗抽一句那首诗抽一句，拼成一首“新”诗。集句这种玩法现在还有，那算不算抄袭呢？要不要把老祖宗挖出来打官司？

这就有了最后一个问题。

3.主观问题

从当前AI的技术水平来看，用“抄袭”这个词来描述AI本身恐怕就不合适。

为什么？因为AI没这本事。抄袭是个主观性非常强的行为，主观性非常重要，法律判罚就非常看重主观性。但AI还没发展出“主观性”这种本事。

我们人是怎么抄袭的呢？首先得去想，也就是脑子里先得有“抄袭”的念头，而且通常还知道抄袭属于越界行为，经过反复权衡之后，最终才决定去抄袭。抄袭的心理过程非常复杂，在我非常有限的见识里面，还没听谁说过我不是自愿，是那天喝多了，所以才抄袭的。

那么，AI有没有抄袭这种主观性呢？

我们经常问现在AI有没有意识，这个问题更进了一步，问AI有没有越界意识。没有。如果现在谁有办法让AI有意识地去抄袭，那绝对拿奖拿到手软。

不过，有人会说，AI没有意识，但是人是有意识的，人在训练AI上会不会有问题呢？

AI模型的训练方法大差不差，基本都是填鸭式灌数据，科幻作品里面的自我觉醒式训练方法还只是幻想阶段，合适不合适，现阶段也没别的办法可想。

但数据集的选取却大有文章。人在训练AI模型的时候，选什么数据加入数据集是主观的，如果故意拿了未经授权的图，或者故意无视使用协议广泛采集数据，这当然又都属于主观行为。

未经授权使用别人的图，别人的文章，行为本身就叫侵权。用来训练模型不行，用来发朋友圈同样不行。因为数据集里可能包含有侵权图片，所以不让使用AI绘画。情感因素我能理解，但我想问题的关键不在于让不让用AI模型，而在于另一个问题:

黑盒问题。

前面说过黑盒问题，学界所关心的黑盒问题是不知道模型都学到了什么，但对于其它内容生产者来说，更关心的是模型学了什么，也就是有没有使用未经授权的数据训练模型。

难吗？不难，也难。模型学了什么从学术上看并不是黑盒，我们当然知道自己给模型喂了什么，论文对于数据集的使用也是简单一列了事，谁没不会把这事当作问题。但是，AIGC一旦开始商业化，开始承载大量资本，问题就复杂。复杂在于怎样告诉别人我们给模型喂了什么，而且还能让别人相信我们说的是真的。

这个才是AIGC时代需要重点捋清的问题。

监督学习 aigc 工具模型数据

0 人点赞