Autores demandan a Anthropic AI y se suman a la reacción de los YouTubers

La demanda alega que el creador de Claude entrena sus modelos con libros con derechos de autor de un controvertido conjunto de datos llamado «The Pile», que también fue criticado el mes pasado por los creadores de YouTube.

Tres autores presentaron el lunes una demanda colectiva contra Anthropic, alegando que la empresa de inteligencia artificial entrena sus modelos con versiones pirateadas de libros con derechos de autor, que se encuentran en un conjunto de datos públicos llamado «The Pile».

«Anthropic ha construido un negocio multimillonario robando cientos de miles de libros con derechos de autor», dice la demanda. «En lugar de obtener permiso y pagar un precio justo por las creaciones que explota, Anthropic las pirateó».

Los demandantes Andrea Bartz, Charles Graeber y Kirk Wallace Johnson han publicado varios libros, incluidos best-sellers. Se unen a otros tres autores que demandaron a Nvidia en marzo por entrenar sus modelos de IA con datos de libros en «The Pile». Los YouTubers también se manifestaron en contra de este conjunto de datos el mes pasado después de que una investigación descubriera que contiene transcripciones de 173.000 vídeos, tomados sin el consentimiento del creador.

Anthropic utiliza estos datos para mejorar su chatbot Claude, que según la compañía tiene un mejor rendimiento que el modelo estrella de OpenAI. Anthropic prevé unos ingresos de 850 millones de dólares en 2024, según The Information, y cuenta con unos 6.000 millones de dólares en financiación de Google y Amazon. La demanda afirma que este éxito se debe a un trabajo creativo no remunerado y que Anthropic «ni siquiera ha intentado» pagar a los autores.

«No es una exageración decir que el modelo de Anthropic busca sacar provecho de la explotación de la expresión humana y el ingenio detrás de cada una de esas obras», dice la demanda.

Shawn Presser, uno de los creadores de «The Pile», creó el tesoro de texto en 2020. Recopiló el texto de casi 200.000 libros del famoso sitio de piratería Bibliotik y llamó a la colección Books3. Aunque el archivo original de Books3 fue eliminado de «The Pile» en agosto de 2023 debido a quejas por derechos de autor, la demanda alega que sigue disponible en otras fuentes.

«Es evidente que Anthropic descargó y reprodujo copias de ‘The Pile’ y ‘Books3’, sabiendo que estos conjuntos de datos estaban compuestos por un tesoro de contenido con derechos de autor procedente de sitios web piratas como Bibiliotik», dice la demanda. La denuncia cita a Anthropic hablando sobre su uso de datos de «The Pile» en múltiples ocasiones, tan recientemente como en julio de 2024.

Además de recopilar datos preexistentes de la web, las empresas de inteligencia artificial están trabajando para asegurar los derechos de contenido recién creado. OpenAI ha llegado a acuerdos de licencia con importantes editoriales y sitios web, como The Wall Street Journal, Reddit y, esta semana, Condé Nast. Sin embargo, estos acuerdos implican, como es lógico, pagar a las publicaciones por el trabajo y el consentimiento de la editorial.

Deja un comentario