アドビの人工知能への積極的な展開は、重大な法的後退に直面しています。同社は、著作権侵害を中心とした集団訴訟を引き起こす行為として、海賊版の文学資料を機械学習インフラに組み込んだと非難されています。## 核心の告発オレゴン州出身の作家エリザベス・リヨンは、アドビが彼女自身の著作を含む無許可の書籍のコピーを、モバイルドキュメント処理アプリケーション向けの専門的な言語モデルSlimLMの訓練資料として使用したと主張し、提案された集団訴訟を提起しました。裁判資料によると、これらの文学作品は著者の同意や補償なしに組み込まれたとされています。## 海賊版書籍がアドビのシステムに入り込んだ経緯この不正使用の経路は、Cerebrasが作成し2023年中に公開したパブリックデータセットのSlimPajama-627Bにさかのぼります。アドビはこのデータセットを利用してSlimLMを事前訓練しました。しかし、訴訟は問題のある連鎖を明らかにしています:SlimPajama自体は、Books3を取り込むことでRedPajamaから派生したものであり、Books3は191,000点の出版物を含む巨大なリポジトリです。重要な問題は、Books3に収録されている資料の一部が適切な許可なしに収集された著作権で保護された資料であると報告されていることです。アドビがこの不正確な基盤の上に構築したことで、同社はこれらの著作権侵害を引き継いだとされています。リヨンの法的チームが指摘するように、SlimLMは無許可の文学コンテンツを含む派生作品となったのです。## 業界全体に広がるパターンアドビはこのような告発に直面した最初のテクノロジー企業ではありません。現代のAIシステムを支える基盤データセットは、著作権紛争の地雷原となっています。- **Appleのインテリジェンスモデル**:9月、AppleはRedPajama由来の資料を無償で使用したとして、権利者に補償せずにAIシステムを訓練したとして訴えられました- **Salesforceの訓練慣行**:10月には、SalesforceがRedPajamaデータセットを不適切に使用したとして類似の訴訟が提起されました- **Anthropicの和解**:最も重要なのは、Anthropicが9月に著者と15億ドルの和解に合意し、Claudeの訓練パイプラインに海賊版作品を取り込んだことを認めたことです## これが意味することAIモデルの普及には膨大な量のテキストデータが必要です。開発者がBooks3やRedPajamaのような資料を出典として利用する際に、法的な出所を徹底的に確認しないと、制度的リスクを生み出します。繰り返される訴訟は、これらのデータセットに依存すること—どれほど便利であっても—が、今や大きな法的リスクを伴うことを示しています。アドビや類似企業にとって、メッセージは避けられなくなっています:訓練データの調達で手抜きをすると、正規のライセンス契約よりもはるかに高いコストがかかる可能性があるのです。
Adobe、AIモデル開発における著作権者の作品の無許可使用で法的問題に直面
アドビの人工知能への積極的な展開は、重大な法的後退に直面しています。同社は、著作権侵害を中心とした集団訴訟を引き起こす行為として、海賊版の文学資料を機械学習インフラに組み込んだと非難されています。
核心の告発
オレゴン州出身の作家エリザベス・リヨンは、アドビが彼女自身の著作を含む無許可の書籍のコピーを、モバイルドキュメント処理アプリケーション向けの専門的な言語モデルSlimLMの訓練資料として使用したと主張し、提案された集団訴訟を提起しました。裁判資料によると、これらの文学作品は著者の同意や補償なしに組み込まれたとされています。
海賊版書籍がアドビのシステムに入り込んだ経緯
この不正使用の経路は、Cerebrasが作成し2023年中に公開したパブリックデータセットのSlimPajama-627Bにさかのぼります。アドビはこのデータセットを利用してSlimLMを事前訓練しました。しかし、訴訟は問題のある連鎖を明らかにしています:SlimPajama自体は、Books3を取り込むことでRedPajamaから派生したものであり、Books3は191,000点の出版物を含む巨大なリポジトリです。
重要な問題は、Books3に収録されている資料の一部が適切な許可なしに収集された著作権で保護された資料であると報告されていることです。アドビがこの不正確な基盤の上に構築したことで、同社はこれらの著作権侵害を引き継いだとされています。リヨンの法的チームが指摘するように、SlimLMは無許可の文学コンテンツを含む派生作品となったのです。
業界全体に広がるパターン
アドビはこのような告発に直面した最初のテクノロジー企業ではありません。現代のAIシステムを支える基盤データセットは、著作権紛争の地雷原となっています。
これが意味すること
AIモデルの普及には膨大な量のテキストデータが必要です。開発者がBooks3やRedPajamaのような資料を出典として利用する際に、法的な出所を徹底的に確認しないと、制度的リスクを生み出します。繰り返される訴訟は、これらのデータセットに依存すること—どれほど便利であっても—が、今や大きな法的リスクを伴うことを示しています。
アドビや類似企業にとって、メッセージは避けられなくなっています:訓練データの調達で手抜きをすると、正規のライセンス契約よりもはるかに高いコストがかかる可能性があるのです。