如果你让GPT-4模仿卡门·马查多(Carmen Machado)、玛格丽特·阿特伍德(Margaret Atwood)或亚历山大·奇(Alexander Chee)的风格写一段话,它会做得很好,而且有充分的理由:它可能在训练过程中吸收了他们所有的作品,现在把他们的聪明才智用于自己。但这些作者,以及成千上万的作者,对这个事实并不满意。
在小说、非小说和诗歌中,像Bard、LLaMa等大型语言模型背后的科技公司因未经许可或补偿而使用他们的作品而受到指责。
“这些技术模仿并反刍我们的语言、故事、风格和想法。数以百万计的受版权保护的书籍、文章、散文和诗歌为人工智能系统提供了‘食物’,这些食物是无止境的,没有账单。”
尽管他们的系统证明能够引用和模仿有问题的作者,但人工智能开发人员并没有实质性地解决这些作品的来源问题。他们是否接受过从书店和评论中搜集的样本的训练?他们从图书馆借了所有的书吗?或者他们只是下载了许多非法档案中的一个,比如Libgen?
有一件事是肯定的:他们没有去找出版商并获得授权——这无疑是首选的方法,而且可以说是唯一合法和合乎道德的方法。正如作者所写:
事实上,我们已经看到这种情况正在发生。最近一些人工智能生成的质量很低的作品是;出版商是;每天,这个网站(很快,这篇文章)都会被抓取内容,重新用于搜索引擎优化。
这些恶意行为者正在使用OpenAI和meta等公司开发的工具、api和代理,在这种情况下,这些工具、api和代理本身就可以说是恶意行为者。毕竟,还有谁会故意窃取数百万的作品来推动一个新的商业产品呢?(好吧,当然是谷歌——但搜索索引与人工智能摄取有很大的不同,谷歌图书至少有一个借口,那就是它是一个专门的索引。)
由于大规模出版的复杂性和边际狭窄,能够以写作为生的作者越来越少,公开信警告说,这种情况对他们来说是站不住脚的,尤其是新作者,“尤其是年轻作家和来自未被充分代表的群体的声音”。
信中要求这些公司做到以下几点:
没有法律威胁——作为作家协会(the Author 's Guild)的首席执行官(也是签署人)玛丽·拉森伯格(Mary Rasenberger),“诉讼是一大笔钱。这需要很长时间。”人工智能现在正在伤害作者。
哪家公司会第一个说:“是的,我们是在剽窃作品的基础上开发人工智能的,我们很抱歉,我们会为此付出代价”?每个人都在猜测,但似乎没有什么动机去这么做。大多数人都没有意识到或担心法学硕士是通过非法手段创建的,它们实际上可能包含和反流版权作品。当它是一幅再现艺术家独特风格的生成图像时,我们更容易看到(非常相似的)问题,这其中存在一些阻力。
但是,把乔治·桑德斯或戴安娜·加巴尔登的所有书都当作人工智能的“食物”,这种更微妙的危害可能不会促使很多人采取行动——尽管很多作者已经做好了抗争的准备。