Adobe đối mặt với thách thức pháp lý về việc sử dụng trái phép tác phẩm của các tác giả trong phát triển mô hình AI

Rugman_Walking · 2026-01-19T13:26:48+00:00

Việc mở rộng của Adobe vào lĩnh vực AI đang đối mặt với một thách thức pháp lý về cáo buộc vi phạm bản quyền. Tác giả Elizabeth Lyon cho rằng công ty đã sử dụng sách lậu để huấn luyện mô hình ngôn ngữ của mình, SlimLM, mà không có sự đồng ý. Tranh cãi này làm nổi bật vấn đề rộng lớn hơn trong ngành về tranh chấp bản quyền liên quan đến tập dữ liệu huấn luyện AI.

Rugman_Walking

2026-01-19 13:26:48

Đang tạo bản tóm tắt

Việc mở rộng mạnh mẽ của Adobe vào trí tuệ nhân tạo đang đối mặt với một trở ngại pháp lý đáng kể. Công ty bị cáo buộc đã tích hợp các tài liệu văn học bị xâm phạm bản quyền vào hạ tầng học máy của mình — một hành động đã gây ra vụ kiện tập thể tập trung vào vi phạm bản quyền.

Các cáo buộc chính

Nhà văn Elizabeth Lyon từ Oregon đã đệ đơn kiện tập thể đề xuất, cáo buộc Adobe đã sử dụng các bản sao không phép của các cuốn sách, bao gồm cả tác phẩm do chính bà viết, làm dữ liệu huấn luyện cho SlimLM, mô hình ngôn ngữ đặc biệt của công ty được thiết kế cho các ứng dụng xử lý tài liệu di động. Theo các tài liệu tòa án, các tác phẩm văn học này đã được tích hợp mà không có sự đồng ý hoặc đền bù của tác giả.

Các cuốn sách bị xâm phạm đã vào hệ thống của Adobe như thế nào

Con đường dẫn đến việc sử dụng trái phép này bắt nguồn từ SlimPajama-627B, một bộ dữ liệu công khai do Cerebras tạo ra và phát hành giữa năm 2023. Adobe đã dựa vào bộ dữ liệu này để tiền huấn luyện SlimLM. Tuy nhiên, vụ kiện tiết lộ một chuỗi vấn đề: chính SlimPajama được tạo ra từ RedPajama bằng cách tích hợp Books3 — một kho lưu trữ khổng lồ gồm 191.000 tác phẩm đã xuất bản.

Vấn đề then chốt: Books3 được cho là chứa các tài liệu có bản quyền mà không có sự phép hợp lệ. Khi Adobe xây dựng dựa trên nền tảng này, công ty đã vô tình thừa hưởng các vi phạm bản quyền này. Như nhóm pháp lý của Lyon nhận xét, SlimLM trở thành một tác phẩm phái sinh chứa nội dung văn học không phép.

Một mô hình xuất hiện trong toàn ngành

Adobe không phải là công ty công nghệ đầu tiên đối mặt với những cáo buộc như vậy. Các bộ dữ liệu nền tảng cung cấp cho các hệ thống AI hiện đại đã trở thành mảnh đất mìn của các tranh chấp về bản quyền:

Mô hình trí tuệ nhân tạo của Apple: Tháng 9, Apple bị kiện vì cáo buộc đã huấn luyện hệ thống AI của mình dựa trên tài liệu lấy từ RedPajama mà không đền bù cho các chủ sở hữu quyền
Thực hành huấn luyện của Salesforce: Tháng 10, cũng có các vụ kiện tương tự chống lại Salesforce, cáo buộc công ty đã sử dụng dữ liệu RedPajama một cách không phù hợp
Thỏa thuận của Anthropic: Đáng chú ý nhất, Anthropic đã đồng ý trả 1,5 tỷ USD để giải quyết vụ kiện với các tác giả vào tháng 9, thừa nhận đã tích hợp các tác phẩm bị xâm phạm vào quy trình huấn luyện của Claude

Tại sao điều này quan trọng

Sự phổ biến của các mô hình AI đòi hỏi lượng lớn dữ liệu văn bản. Khi các nhà phát triển lấy dữ liệu từ các tập hợp như Books3 hoặc RedPajama mà không kiểm tra kỹ nguồn gốc pháp lý, họ tạo ra rủi ro tổ chức. Các vụ kiện liên tiếp cho thấy rằng việc dựa vào các bộ dữ liệu này — dù tiện lợi đến đâu — hiện nay mang theo rủi ro pháp lý đáng kể.

Đối với Adobe và các công ty tương tự, thông điệp ngày càng rõ ràng: bỏ qua việc xác minh nguồn dữ liệu huấn luyện có thể gây thiệt hại lớn hơn nhiều so với việc có được giấy phép hợp pháp.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.