La croissance agressive d’Adobe dans le domaine de l’intelligence artificielle fait face à un revers juridique important. La société est accusée d’avoir incorporé des matériaux littéraires piratés dans son infrastructure d’apprentissage automatique — une démarche qui a déclenché une action collective centrée sur des violations de droits d’auteur.
L’Accusation Principale
L’auteure Elizabeth Lyon de l’Oregon a déposé une plainte collective proposant une action en justice affirmant qu’Adobe aurait utilisé des copies non autorisées de livres, y compris ses propres œuvres, comme matériel d’entraînement pour SlimLM, le modèle linguistique spécialisé de la société conçu pour les applications mobiles de traitement de documents. Selon les documents judiciaires, ces œuvres littéraires ont été incorporées sans le consentement ni la compensation de l’auteur.
Comment les Livres Piratés Ont Trouvé Leur Chemin dans le Système d’Adobe
Le chemin menant à cette utilisation présumée remonte à SlimPajama-627B, un ensemble de données publiques créé par Cerebras et publié à la mi-2023. Adobe s’est appuyée sur cet ensemble pour pré-entraîner SlimLM. Cependant, la plainte révèle une chaîne problématique : SlimPajama lui-même dérivait de RedPajama en incorporant Books3 — un vaste référentiel comprenant 191 000 œuvres publiées.
Le problème crucial : Books3 contiendrait apparemment du matériel soumis à des droits d’auteur collecté sans autorisation appropriée. Lorsqu’Adobe a construit sur cette base compromise, la société aurait hérité de ces violations de droits d’auteur. Comme le note l’équipe juridique de Lyon, SlimLM est devenu une œuvre dérivée contenant du contenu littéraire non autorisé.
Un Modèle de Plus en Plus Courant dans l’Industrie
Adobe n’est guère la première entreprise technologique à faire face à de telles accusations. Les ensembles de données sous-jacents alimentant les systèmes d’IA modernes sont devenus un terrain miné de litiges liés aux droits d’auteur :
Modèle d’Intelligence d’Apple : En septembre, Apple a été poursuivie pour avoir prétendument entraîné son système d’IA sur du matériel provenant de RedPajama sans indemniser les titulaires de droits
Pratiques d’Entraînement de Salesforce : En octobre, une procédure similaire a été intentée contre Salesforce, accusant la société d’utiliser de manière inappropriée les ensembles de données RedPajama
Règlement d’Anthropic : Plus significatif encore, Anthropic a accepté un règlement de 1,5 milliard de dollars avec des auteurs en septembre, reconnaissant avoir incorporé des œuvres piratées dans le pipeline d’entraînement de Claude
Pourquoi Cela Compte
La prolifération des modèles d’IA nécessite d’énormes quantités de données textuelles. Lorsque les développeurs puisent dans des compilations comme Books3 ou RedPajama sans vérifier rigoureusement la provenance légale, ils créent un risque institutionnel. Les procès répétés suggèrent que s’appuyer sur ces ensembles de données — aussi pratiques soient-ils — comporte désormais un risque juridique considérable.
Pour Adobe et des entreprises similaires, le message devient inévitable : faire l’impasse sur la sourcing des données d’entraînement peut coûter bien plus cher que des arrangements de licences légitimes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Adobe fait face à un défi juridique concernant l'utilisation non autorisée des œuvres d'auteurs dans le développement de modèles d'IA
La croissance agressive d’Adobe dans le domaine de l’intelligence artificielle fait face à un revers juridique important. La société est accusée d’avoir incorporé des matériaux littéraires piratés dans son infrastructure d’apprentissage automatique — une démarche qui a déclenché une action collective centrée sur des violations de droits d’auteur.
L’Accusation Principale
L’auteure Elizabeth Lyon de l’Oregon a déposé une plainte collective proposant une action en justice affirmant qu’Adobe aurait utilisé des copies non autorisées de livres, y compris ses propres œuvres, comme matériel d’entraînement pour SlimLM, le modèle linguistique spécialisé de la société conçu pour les applications mobiles de traitement de documents. Selon les documents judiciaires, ces œuvres littéraires ont été incorporées sans le consentement ni la compensation de l’auteur.
Comment les Livres Piratés Ont Trouvé Leur Chemin dans le Système d’Adobe
Le chemin menant à cette utilisation présumée remonte à SlimPajama-627B, un ensemble de données publiques créé par Cerebras et publié à la mi-2023. Adobe s’est appuyée sur cet ensemble pour pré-entraîner SlimLM. Cependant, la plainte révèle une chaîne problématique : SlimPajama lui-même dérivait de RedPajama en incorporant Books3 — un vaste référentiel comprenant 191 000 œuvres publiées.
Le problème crucial : Books3 contiendrait apparemment du matériel soumis à des droits d’auteur collecté sans autorisation appropriée. Lorsqu’Adobe a construit sur cette base compromise, la société aurait hérité de ces violations de droits d’auteur. Comme le note l’équipe juridique de Lyon, SlimLM est devenu une œuvre dérivée contenant du contenu littéraire non autorisé.
Un Modèle de Plus en Plus Courant dans l’Industrie
Adobe n’est guère la première entreprise technologique à faire face à de telles accusations. Les ensembles de données sous-jacents alimentant les systèmes d’IA modernes sont devenus un terrain miné de litiges liés aux droits d’auteur :
Pourquoi Cela Compte
La prolifération des modèles d’IA nécessite d’énormes quantités de données textuelles. Lorsque les développeurs puisent dans des compilations comme Books3 ou RedPajama sans vérifier rigoureusement la provenance légale, ils créent un risque institutionnel. Les procès répétés suggèrent que s’appuyer sur ces ensembles de données — aussi pratiques soient-ils — comporte désormais un risque juridique considérable.
Pour Adobe et des entreprises similaires, le message devient inévitable : faire l’impasse sur la sourcing des données d’entraînement peut coûter bien plus cher que des arrangements de licences légitimes.