用受版权保护的数据训练大模型，OpenAI又被告了！

更新于2024-07-01 16:33

最新消息显示，OpenAI使用所有公开可用的数据来训练ChatGPT，包括来自互联网的书籍和文章。现在，拥有这些数据的人或公司纷纷展开索赔。

训练数据是创建人工智能模型的重要组成部分。谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙·舒斯特。

问题在于，越来越多的出版商指责这些AI公司窃取受版权保护的数据，并提起索赔。Meta和OpenAI在向美国版权局提交的评论中辩称，将受版权保护的材料放在互联网上使其“公开可用”，因此属于合理使用。

但他们仍面临来自多个团体的有关版权材料的诉讼。

调查报道中心是一家非营利性新闻机构，简称为CIR，今年早些时候与Mother Jones和 Reveal合并。CIR上周在联邦法院起诉了 OpenAI和微软，指控OpenAI“建立在对包括CIR在内的全球创作者版权作品的剥削之上”。

CIR的律师指控OpenAI和微软使用Mother Jones的版权材料来训练他们的GPT和Copilot AI模型。

“OpenAI和微软窃取我们的新闻，以增强其产品的影响力，但他们从未征求我们的许可或提供补偿，这与其他获得我们材料许可的组织不同，”CIR中心首席执行官莫妮卡·鲍尔莱因在一份关于诉讼的声明中表示：“这种搭便车的行为不仅不公平，而且侵犯了版权。”

诉讼称，OpenAI在WebText训练的顶级网络域名发布列表中，出现了“来自Mother Jones网络域名的16,793个不同的URL”。

在作家协会的另一起集体诉讼中，两位作家声称OpenAI利用他们书中的信息来训练ChatGPT。《纽约时报》也在2023年12月对OpenAI提起了类似的诉讼。

今年5月，作家协会诉讼案的法庭文件显示，OpenAI删除了用于训练GPT-3的两个庞大数据集。该协会的律师表示，这两组数据可能包含“超过10万本已出版的书籍”。

目前，OpenAI已开始与新闻机构签署许可协议，以公平使用其作品。OpenAI已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和Business Insider母公司Axel Springer签署了此类协议。

但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。

一种解决方案是合成数据，但这些数据是人工生成的而不是从现实世界收集的，并且可以通过机器学习算法轻松生成。

OpenAI已将合成数据视为训练其模型的一种选择，但首席执行官Sam Altman对质量表示担忧。

Sam Altman在2023年5月的一次技术会议上表示： “只要能让模型足够智能，能够生成良好的合成数据，那么一切都会好起来。”该公司还探索了人工智能模型协同工作的过程——一个人工智能系统生成数据，另一个人工智能系统对其进行判断。

主编精选，篇篇重磅，请点击订阅“邮件订阅”

编辑：

北美商业电讯