Inteligencia Artificial Generativa y Propiedad Intelectual
Un tema espinoso no solo por el poco recorrido acumulado de esta tecnología sino también por la variedad de casos de uso que se puede afrontar con ella.
De los muchos temas de debate que hay alrededor del auge de la Inteligencia Artificial Generativa (GenAI), hay dos que me interesan particularmente. Uno, en el que no me meteré hoy, es hasta qué punto se harán realidad las expectativas de creación de valor y de negocio que han surgido alrededor de la GenAI.
Otro tema, del que sí quiero hablar hoy, es cómo encaja el negocio de la Inteligencia Artificial Generativa en el actual panorama de la propiedad intelectual. La mayoría de los principales avances y cambios tecnológicos de las últimas décadas trajeron consigo densas discusiones en materia de propiedad intelectual, así que la GenAI no iba a ser menos.
Hace unos quince años, por ejemplo, estuvimos un buen tiempo inmersos en un tornado de discusiones, procesos judiciales y legislaciones medio improvisadas alrededor del concepto de “piratería”, cuando se popularizó la compartición y descarga de películas, series y canciones en redes peer to peer (P2P).
Exactamente igual que ocurrió entonces, el meollo de las discusiones de hoy está en torno a conceptos técnicos cuya traducción y repercusión legal las distintas partes intentan definir y retorcer según sus intereses. En el pasado, la principal cuestión que había que aclarar fue si enlazar desde una página web a un archivo “pirateado” que estaba “alojado” en una red P2P era ilícito (las comillas son esenciales en esa frase).
Hoy, la cuestión clave es si es lícito usar un determinado contenido para entrenar un modelo de Inteligencia Artificial Generativa sin permiso explícito (y sin compartir ganancias) de quien ostenta sus derechos de autoría o propiedad.
Como derivada de lo anterior, también es crucial estos días la duda sobre a quién le corresponden los derechos sobre los resultados producidos por los modelos de GenAI: ¿al propietario del modelo? ¿A quien ha dado la instrucción al modelo? ¿A quienes proporcionaron, aun involuntariamente, los contenidos con que se entrenó al modelo? ¿A todos ellos?
Igual que con las discusiones sobre las redes P2P y las páginas de enlaces, para afrontar estos debates sobre GenAI hay que comprender con precisión cómo funcionan los elementos tecnológicos involucrados. En este caso, es necesario entender cómo se entrena un modelo de GenAI, un Large Language Model (LLM), para poder participar en este debate con un mínimo de solvencia.
La creencia popular es que cuando “alimentamos” a un LLM con contenidos (textos o imágenes, fundamentalmente), el modelo hace una copia de esos contenidos para consultarlos y utilizarlos cuando los necesite más adelante. Así funcionan las bases de datos o los buscadores como Google pero, en el caso de la GenAI, la cosa no es exactamente así.
De forma (muy) simplificada, podemos decir que, cuando entrenamos un modelo de GenAI con un texto, ese texto no queda guardado dentro del modelo, sino que es leído y analizado para identificar las relaciones entre las palabras que forman el texto. Lo que se guarda, por tanto, son esas relaciones, esos patrones habituales que se encuentran en el texto, no el texto en sí. Es decir, el modelo no guarda el texto para consultarlo más adelante, sino que “aprende” que, en un determinado contexto, esta palabra suele venir acompañada de esta y luego de esta y también de esta otra.
Visto así, parecería que la cuestión queda zanjada. Esa es la opinión de quienes crean LLM desde contenidos públicos, por supuesto. Sin embargo, si fuera tan sencillo, no sería un tema tan apasionante, ¿no?
Imaginemos este caso: entreno un modelo de GenAI con cincuenta mil novelas distintas. Ahora, pido al modelo que, con lo que ha aprendido sobre cómo son las novelas, me genere un relato sobre un tema que se me ocurre. En ese relato resultante, no hay ningún fragmento significativo copiado literalmente de ninguna de esas novelas y, puesto que el tema que he propuesto es suficientemente “original”, el resultado es a su vez suficientemente original y novedoso (al menos, tanto como pueden serlo las novelas hoy día). Parece un caso sencillo, ¿verdad? Es difícil estar en contra de algo así.
Sin embargo, imaginemos ahora este otro caso: entreno un modelo de GenAI con las noticias del día provenientes de una serie de medios de comunicación. Acto seguido, le pido que me haga un resumen de la actualidad de hoy que enviaré a mis suscriptores. También, le pido que me redacte un artículo sobre el tema más candente del día para publicarla en mi web de noticias. No soy capaz de citar las fuentes puesto que el modelo no contiene los artículos originales copiados literalmente ni sería fácil saber qué artículos han contribuido (y cuáles no) a que el resultado generado por mi modelo sea el que es.
Aquí, la cosa ya está más turbia. A grandes rasgos, estos usos no parecen encajar en lo que permite la legislación española (véase el artículo 32 de la ley de Propiedad Intelectual) o lo que los estadounidenses llaman “fair use”, porque no estamos analizando o criticando un artículo, ni tenemos posibilidad de citarlo, sino que estamos usando varios de ellos para crear una obra análoga a todos ellos. Podemos escudarnos en que no hemos copiado literalmente las noticias pero, al contrario que ocurre con textos genéricos, en este caso hablamos de un contenido concreto y específico proporcionado a su vez por unas fuentes también concretas: si no hubiera leído esas noticias en particular e incorporado lo que ha aprendido de ellas, mi modelo no sería capaz de hablar de la actualidad del día.
Sirva esto para ilustrar que este tema está cargado de matices y que, por lo novedoso del asunto, aún tardaremos en tener criterios y directrices incuestionables. Y eso sin entrar en cómo distintos países pueden acabar generando legislaciones dispares. Mientras tanto, habrá que estar atentos a las noticias, porque en EEUU esto ya está llegando a los tribunales y en esos juicios saldrán argumentos novedosos que habrá que ir evaluando.
Por si fuera necesario aclararlo, recordemos que este es mi blog personal y que nada de lo que digo en él lo digo en representación de la empresa para la que trabajo, ni mis opiniones personales tienen por qué coincidir con sus posiciones oficiales sobre cualquier tema. A mí, me parece obvio, pero no está de más recordarlo.