Агрессивное расширение Adobe в области искусственного интеллекта сталкивается с серьезным юридическим препятствием. Компания обвиняется в использовании пиратских литературных материалов в своей инфраструктуре машинного обучения — шаг, который вызвал коллективный иск, связанный с нарушением авторских прав.
Основное обвинение
Автор Элизабет Лайон из Орегона подала предложение о коллективном иске, утверждая, что Adobe использовала несанкционированные копии книг, включая её собственные произведения, в качестве обучающего материала для SlimLM, специализированной языковой модели компании, предназначенной для мобильных приложений обработки документов. Согласно судебным документам, эти литературные произведения были включены без согласия автора и без компенсации.
Как пиратские книги попали в систему Adobe
Путь к предполагаемому злоупотреблению прослеживается до SlimPajama-627B, публичного набора данных, созданного Cerebras и выпущенного в середине 2023 года. Adobe полагалась на этот набор данных для предварительного обучения SlimLM. Однако в иске раскрывается проблемная цепочка: сам SlimPajama был получен из RedPajama с помощью Books3 — обширного репозитория, содержащего 191 000 опубликованных произведений.
Ключевая проблема: сообщается, что Books3 содержит материалы, защищённые авторским правом, собранные без надлежащего разрешения. Когда Adobe построила свою систему на этой нарушенной базе, компания, по всей видимости, унаследовала эти нарушения авторских прав. Как отмечает юридическая команда Лайон, SlimLM стал производным произведением, содержащим нелегальный литературный контент.
Появляющийся паттерн в индустрии
Adobe далеко не первая технологическая компания, столкнувшаяся с подобными обвинениями. Основные наборы данных, питающие современные системы ИИ, превратились в минное поле споров о авторских правах:
Модель интеллекта Apple: В сентябре Apple была подана в суд за предполагаемое обучение своей системы ИИ на материалах из RedPajama без компенсации правообладателям
Практики обучения Salesforce: В октябре против Salesforce было возбуждено аналогичное дело, обвиняющее компанию в неправильном использовании наборов данных RedPajama
Урегулирование Anthropic: Наиболее значимо, что в сентябре Anthropic согласилась на выплату 1,5 миллиарда долларов по делу с авторами, признавая, что включила пиратские произведения в процесс обучения Claude
Почему это важно
Распространение моделей ИИ требует огромных объемов текстовых данных. Когда разработчики используют сборники вроде Books3 или RedPajama, не проверяя их легальный статус, они создают институциональный риск. Повторяющиеся иски свидетельствуют о том, что опора на эти наборы данных — хоть и удобная — теперь сопряжена с существенными юридическими рисками.
Для Adobe и подобных компаний становится очевидным: экономия на источниках данных для обучения может обойтись гораздо дороже, чем легальные лицензии.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Adobe сталкивается с юридической проблемой из-за несанкционированного использования работ авторов при разработке модели ИИ
Агрессивное расширение Adobe в области искусственного интеллекта сталкивается с серьезным юридическим препятствием. Компания обвиняется в использовании пиратских литературных материалов в своей инфраструктуре машинного обучения — шаг, который вызвал коллективный иск, связанный с нарушением авторских прав.
Основное обвинение
Автор Элизабет Лайон из Орегона подала предложение о коллективном иске, утверждая, что Adobe использовала несанкционированные копии книг, включая её собственные произведения, в качестве обучающего материала для SlimLM, специализированной языковой модели компании, предназначенной для мобильных приложений обработки документов. Согласно судебным документам, эти литературные произведения были включены без согласия автора и без компенсации.
Как пиратские книги попали в систему Adobe
Путь к предполагаемому злоупотреблению прослеживается до SlimPajama-627B, публичного набора данных, созданного Cerebras и выпущенного в середине 2023 года. Adobe полагалась на этот набор данных для предварительного обучения SlimLM. Однако в иске раскрывается проблемная цепочка: сам SlimPajama был получен из RedPajama с помощью Books3 — обширного репозитория, содержащего 191 000 опубликованных произведений.
Ключевая проблема: сообщается, что Books3 содержит материалы, защищённые авторским правом, собранные без надлежащего разрешения. Когда Adobe построила свою систему на этой нарушенной базе, компания, по всей видимости, унаследовала эти нарушения авторских прав. Как отмечает юридическая команда Лайон, SlimLM стал производным произведением, содержащим нелегальный литературный контент.
Появляющийся паттерн в индустрии
Adobe далеко не первая технологическая компания, столкнувшаяся с подобными обвинениями. Основные наборы данных, питающие современные системы ИИ, превратились в минное поле споров о авторских правах:
Почему это важно
Распространение моделей ИИ требует огромных объемов текстовых данных. Когда разработчики используют сборники вроде Books3 или RedPajama, не проверяя их легальный статус, они создают институциональный риск. Повторяющиеся иски свидетельствуют о том, что опора на эти наборы данных — хоть и удобная — теперь сопряжена с существенными юридическими рисками.
Для Adobe и подобных компаний становится очевидным: экономия на источниках данных для обучения может обойтись гораздо дороже, чем легальные лицензии.