Adobe因在AI模型开发中未经授权使用作者作品而面临法律挑战

robot
摘要生成中

Adobe对人工智能的激进扩展正面临重大法律挫折。该公司被指控将盗版文学材料纳入其机器学习基础设施——此举引发了一场以版权侵犯为中心的集体诉讼。

核心指控

来自俄勒冈的作者Elizabeth Lyon提起了一项拟议的集体诉讼,声称Adobe在为其专门用于移动文档处理应用的语言模型SlimLM进行训练时,未经授权使用了包括她自己著作在内的书籍副本。据法院文件显示,这些文学作品在未获得作者同意或补偿的情况下被纳入。

盗版书籍如何进入Adobe系统

这一涉嫌滥用的路径可以追溯到由Cerebras在2023年中发布的公共数据集SlimPajama-627B。Adobe依赖该数据集对SlimLM进行预训练。然而,诉讼揭示了一个有问题的链条:SlimPajama本身是由RedPajama派生而来,后者又通过整合Books3——一个包含191,000部已出版作品的庞大存储库——而形成。

关键问题在于:Books3据称包含未经授权收集的受版权保护的材料。当Adobe在此基础上进行构建时,该公司被指继承了这些版权违规行为。正如Lyon的法律团队所指出的,SlimLM成为了包含未授权文学内容的衍生作品。

行业中的模式逐渐浮现

Adobe并非第一个面临此类指控的科技公司。支撑现代AI系统的基础数据集已成为版权争议的雷区:

  • 苹果智能模型:九月,苹果被起诉涉嫌在未向权利人支付报酬的情况下,使用RedPajama来源的材料训练其AI系统
  • Salesforce的训练做法:十月,类似的诉讼针对Salesforce,指控其不当使用RedPajama数据集
  • Anthropic的和解:最引人注目的是,Anthropic在九月与作者达成了15亿美元的和解,承认其在Claude的训练流程中使用了盗版作品

这为何重要

AI模型的普及需要大量的文本数据。当开发者从Books3或RedPajama等合集来源获取数据时,如果未能彻底核查其合法性,就会带来制度性风险。不断出现的诉讼表明,依赖这些数据集——无论多么方便——如今都面临着巨大的法律风险。

对于Adobe及类似公司来说,信息变得越来越清晰:在训练数据来源上偷工减料,可能比合法授权的成本要高得多。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)