回应《纽时》指控,OpenAI 主张合理使用公开资料训练 AI
《纽约时报》日前控告 OpenAI 及其主要投资人微软在未经允许或付情况费下,使用数百万篇受版权保护的新闻文章训练生成式 AI,认为 OpenAI 明显违反智慧财产权法。对此,OpenAI 8 日公开回应,称其指控缺乏合理依据。
OpenAI 透过官方部落格发表声明,重申使用网路上公开资料(包括《纽时》文章)训练 AI 模型是「合理使用」。换句话说,建立 GPT-4 和 DALL·E 3 等生成式 AI 系统,OpenAI 认为从数十亿个艺术品、电子书、论文等内容进行学习,以产生接近人类的文字和图像,不需要取得许可或以任何方式支付费用。
「我们认为这项原则对创作者公平,对创新者必要,对美国竞争力相当关键」,OpenAI 写道。
OpenAI 也试图解决反刍(Regurgitation)问题,即生成式 AI 模型在某种提示方式下逐字输出训练资料,比方说产生一张与着名摄影师作品近乎相同的图像。OpenAI 认为,来自单一来源训练资料不太可能发生反刍,并期望使用者能够负责任地使用服务,避免故意使 AI 模型进行反刍。
「有趣的是,《纽约时报》所引起的反刍似乎来自多年前文章,在多个第三方网站上大量扩散」,OpenAI 也写道,「看起来他们故意操弄提示,通常包括冗长的文章摘录,以便让我们 AI 模型进行反刍。」
OpenAI 也揭露去年 12 月 19 日进行最後一次沟通,认为与《纽时》似乎取得建设性进展,谈判重点围绕 ChatGPT 即时显示新闻来源的合作夥伴关系,OpenAI 使用者可以取得报导,《纽时》也获得与既有读者和新读者建立联系的新方式。OpenAI 向《纽时》解释,他们内容对现有模型训练没有实质贡献,也不足以对未来训练产生足够的影响。然而《纽时》就在 12 月 27 日提起诉讼,这让 OpenAI 感到讶异和失望。
值得一提的是,IEEE Spectrum 杂志近日有篇文章,着名学者 Gary Marcus 和电影视觉艺术家 Reid Southen 共同展示包含 DALL·E 3 在内的生成式 AI 系统如何在没有明确提示下反刍资料,这使 OpenAI 上述论点不太可信。
有关生成式 AI 版权争论进入白热化阶段,OpenAI 仍然希望与《纽时》建立合作夥伴关系,尊重该媒体悠久历史,同时期待与更多新闻出版业者合作。
- OpenAI claims New York Times copyright lawsuit is without merit
(首图来源:Unsplash)