Saltar al contenido

Contenido con Copyright: Clave para IA según OpenAI

Mientras la inteligencia artificial está revolucionando numerosos sectores, cada vez más personas (principalmente editores, escritores, artistas y en general aquellos que dependen de los derechos de autor) están planteando dudas sobre los datos utilizados para entrenar los modelos. Un tema de gran importancia que está generando incluso algunas disputas legales, como la que inició el NY Times contra OpenAI.

El punto de vista de OpenAI bajo este aspecto es muy claro: la empresa está dispuesta a colaborar con empresas y gobiernos para encontrar una solución al problema, pero admite que no sería posible desarrollar una IA sin utilizar datos cubiertos por derechos de autor.

ChatGPT-Android

El punto de vista de OpenAI

Según OpenAI, es un hecho que la IA necesita contenido protegido por derechos de autor. Y lo deja claro. No en los documentos del caso iniciado por NY Times, sino en respuesta a una investigación del Comité de Comunicaciones y Digital del Reino Unido sobre los riesgos y oportunidades de los Modelos de Lenguaje Grande. La respuesta de OpenAI aborda diversos temas y, como era de esperar, es muy optimista. La IA en un futuro muy cercano aportará un importante beneficio a la sociedad en diferentes sectores y tendremos Modelos de Lenguaje Grande cada vez más eficientes. El documento menciona los riesgos, pero OpenAI está haciendo todo lo posible para reducirlos. Y solicita expresamente la aprobación de leyes para regular el sector y garantizar un desarrollo seguro de la IA.

Lo más interesante, sin embargo, es cuando OpenAI se pronuncia sobre el tema de los derechos de autor. «Dado que actualmente los derechos de autor cubren prácticamente todo tipo de expresión humana, incluidos artículos de blog, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar los modelos de IA de vanguardia de hoy en día sin utilizar material protegido por derechos de autor«, se lee en el documento.

¿Y todo lo que es de dominio público? OpenAI explica que no sería suficiente en absoluto: «limitar los datos de entrenamiento a libros y dibujos en dominio público creados hace más de un siglo podría generar un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades de los ciudadanos actuales«.

Desde el punto de vista técnico, el razonamiento es impecable. De hecho, cualquier contenido, incluso si es accesible en línea de forma libre y legal, está protegido de alguna forma por derechos de autor. Por supuesto, no se pueden copiar estos datos libremente, pero la posición de OpenAI es que hasta la fecha, su trabajo cumple con las leyes. «No creemos que las leyes actuales de derechos de autor prohíban el uso de estos materiales para entrenar los modelos«, explican los autores del documento. Reconocen la necesidad de hacer mayores esfuerzos para apoyar a quienes poseen los derechos. Tanto es así que han integrado herramientas destinadas a webmasters y creadores de contenido para que no se utilicen sus contenidos en nuevos entrenamientos de modelos.

Sin embargo, la pregunta es qué hacer con los datos ya utilizados «gratuitamente». Es cierto que las leyes actuales son inadecuadas para abordar estos problemas, pero de una empresa que habla de desarrollo ético de la IA, sería razonable esperar que también se encuentre una solución al problema de los datos utilizados para entrenar los modelos actuales. Después de todo, es gracias a estos datos que han llegado hasta este punto.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *