自产AI训练数据质量太差，Meta打算花钱买平安

更新于2024-05-23 15:17

最新消息显示，随着Meta全力投入生成式AI开发，该公司正在考虑是否需要付费获取质量更好、更即时的训练数据来改进其AI工具，目前的付费对象是新闻行业。

据两位知情人士透露，Meta的团队正在内部讨论该公司是否应该与新闻出版商达成新的付费协议，以获得更多、更深入的新闻、照片和视频内容。

讨论新闻内容访问权限的Meta团队包括其合作伙伴、产品和法律团队的领导。知情人士表示，Meta可能需要这样的访问权限，以使其生成式人工智能工具（如Meta AI）对用户更有效，并在日益激烈的生成式人工智能搜索工具和聊天机器人市场中更具竞争力。

一位知情人士表示：“Meta可能别无选择，只能掏钱。”

一位知情人士表示，Meta尚未正式与任何新闻媒体接洽，内部谈判仍处于早期阶段。然而，如果该公司决定这样做，任何获得模型训练数据的交易都将与过去的协议不同。在过去的协议中，Meta向出版商付费，以获得网站上内容的链接。

Meta首席执行官马克·扎克伯格今年早些时候声称，Meta拥有自己的数据来训练Llama大型语言模型，该模型比Common Crawl还要大。Common Crawl是一组各大公司（包括 Meta）用于大量抓取网络数据进行AI训练的模型。

一位知情人士表示，尽管如此，Meta内部仍对所拥有数据的质量感到担忧。 Facebook或Instagram上的用户帖子和评论尚不足以成为生成人工智能聊天机器人和搜索工具生成高质量输出所需的训练数据，而书籍、新闻文章和散文的质量则比较高。

如果Meta选择或被迫更多地依赖自己的数据，那么它可能会再次陷入困境，其产出将落后于谷歌和OpenAI等竞争对手。

大约两年前，随着ChatGPT聊天机器人的推出，生成式AI突然进入公众视野，新闻媒体和其他网站开始阻止Common Crawl和OpenAI部署的自动化机器人不断免费抓取其内容。美国版权局正在考虑制定涵盖生成人工智能的新规则。如果无法免费、持续地访问新闻发布者内容，Meta AI对有关时事的用户的响应可能会变得更加有限、过时或不正确。

目前，在生成式人工智能领域竞争激烈的各大科技公司已经与新闻出版商和媒体达成协议，以获取更多内容作为模型训练数据。美国新闻集团与谷歌签署了协议，英国《金融时报》与OpenAI签约，美联社、Dotdash Meredith、Politico 欧洲多家出版物的母公司Axel Springer也与OpenA 签约。OpenAI最大的投资者是微软，微软与Axel Springer有合作关系。

尽管如此，许多出版公司尚未与任何AI公司签约，包括《纽约时报》。该报在未能就许可协议条款达成一致后起诉了OpenAI，还要求Common Crawl删除了从该出版物上抓取的数据。一位了解Meta的人士表示，大多数新闻出版商都愿意接受许可协议，只是因为“有总比没有好”。

主编精选，篇篇重磅，请点击订阅“邮件订阅”

编辑：

北美商业电讯

自产AI训练数据质量太差，Meta打算花钱买平安

ChatGPT

特斯拉因虚假广告在韩国被罚款225万美元

OpenAI宣布ChatGPT每周活跃用户数量突破1亿

润建股份：与合作伙伴就海外算力达成战略合作

史上首次，事关万亿美元！全球知名媒体状告ChatGPT侵权

帝奥微：产品将受益于欧洲市场USB-C接口的普及

热门话题