Inteligencia artificial y protección de datos

¿Tienen las herramientas de inteligencia artificial que cumplir con la normativa de protección de datos y de propiedad intelectual?

Estos últimos meses hemos podido acercarnos, como usuarios «de a pie», a diversas herramientas de inteligencia artificial. Las más populares han sido las de OpenAI, la empresa dirigida por Sam Altman, que ha abierto al gran público DALL-E y ChatGPT.

En el caso de DALL-E, se trata de una herramienta de inteligencia artificial que permite crear imágenes emulando fotografías, dibujos o pinturas sobre cualquier objeto, personaje o temática que se nos ocurra. Como usuarios solo tenemos que introducir un tema, objeto o personaje y especificar las características de la imagen que queramos que nos devuelva.

Mientras que ChatGPT es una herramienta que permite mantener una «conversación» con la inteligencia artificial: como usuario podemos hacerle una pregunta, o solicitar un texto sobre cualquier temática. Y ChatGPT nos devolverá una respuesta coherente. Podrá incluso adaptar su respuesta al contexto o requisitos que marquemos como usuarios, tales como el idioma, la extensión de la respuesta, o el «tono» de la misma (por ejemplo, si le pedimos un chiste).

El acceso a través de web y su carácter gratuito han permitido el acercamiento del público general a estas herramientas de inteligencia artificial, entrenadas sobre ingentes cantidades de datos: en el caso de DALL-E, con imágenes y de ChatGPT, con texto.

Inteligencia artificial, propiedad intelectual y derechos de autor

Estos enormes conjuntos de datos o datasets que sirven como fuente de aprendizaje para la inteligencia artificial no son ajenos al derecho, tanto en lo que respecta a la protección de la propiedad intelectual, como en lo relativo a la protección de datos.

En España, la Ley de Propiedad Intelectual de 1996 (Real Decreto Legislativo 1/1996, de 12 de abril) reconoce las «colecciones de datos» como objeto de propiedad intelectual y por tanto, protegidas por los derechos de autor.

Cabe destacar que, tratándose de una ley de 1996, no se ha quedado demasiado desfasada la definición del legislador de las bases de datos, que podemos aplicar perfectamente a un dataset:

Se consideran bases de datos las colecciones de obras, de datos, o de otros elementos independientes dispuestos de manera sistemática o metódica y accesibles individualmente por medios electrónicos o de otra forma.

Para la protección de la propiedad intelectual de las bases de datos, la ley contempla un derecho sui generis, con el fin de:

Proteger la inversión sustancial, evaluada cualitativa o cuantitativamente, que realiza su fabricante ya sea de medios financieros, empleo de tiempo, esfuerzo, energía u otros de similar naturaleza, para la obtención, verificación o presentación de su contenido.

Así, el fabricante de una base de datos puede prohibir la extracción y/o reutilización de la totalidad o de una parte sustancial de la misma. Y podrá transferir, ceder o licenciar dichos derechos, al igual que ocurre con la propiedad intelectual del software.

El uso de datos personales para entrenar a una inteligencia artificial

Además de la normativa de propiedad intelectual, a las bases de datos habrá que aplicar, siempre que entre estos datos haya datos personales, la legislación de protección de datos personales. Los datos de un dataset serán personales siempre que se trate de información sobre una persona física identificada o identificable.

El carácter de datos personales o no de los datasets de DALL-E y ChatGPT es opaco, pero no es difícil intuir que para entrenar a una inteligencia artificial que devuelva imágenes de humanos, se habrán usado fotografías de personas.

Como tampoco es descabellado pensar que para entrenar a una inteligencia artificial para que converse imitando a un humano, se habrán utilizado textos o conversaciones de personas. Es decir, datos personales.

La inteligencia artificial debe cumplir con las obligaciones legales en materia de propiedad intelectual

Cumplir con los principios del RGPD

En España, el uso de este tipo de datos requiere del cumplimiento de los principios del Reglamento General de Protección de Datos (RGPD):

Licitud: Que exista consentimiento del interesado, o que el tratamiento resulte necesario para:
- Ejecutar un contrato
- Cumplir una obligación legal
- Proteger intereses vitales (del interesado u otra persona)
- Interés público
- Interés legítimo

En el caso de estas herramientas, no parece que se cumpla ninguna de estas excepciones, con lo que sería necesario el consentimiento de los interesados o titulares de los datos personales que se hayan usado para entrenar a una inteligencia artificial.

Lealtad y transparencia: La información relativa al tratamiento debe ser fácilmente accesible, fácil de entender y expresarse en lenguaje claro y sencillo. Esta información debe facilitarse a la hora de solicitar el consentimiento.
Limitación de la finalidad: La finalidad de la recogida y tratamiento de los datos debe ser explícita, determinada y legítima. Y los fines deben ser adecuados, pertinentes y limitados. Lo que es lo mismo: los datos recogidos para entrenar una inteligencia artificial, deben utilizarse con este propósito y no con otro. O en sentido inverso, si los datos se han recogido con una finalidad diferente, no podrán utilizarse para entrenar una inteligencia artificial.
Limitación del plazo de conservación: Hay que establecer plazos o criterios para la supresión de los datos o su revisión periódica.
Minimización: Minimizar los datos que se recogen, el tratamiento que se hace, el plazo de conservación y las personas que tienen acceso a los mismos.
Exactitud: Es obligación del responsable mantener los datos exactos.

Con la información que tenemos ¿crees que OpenAI ha respetado estos principios al tratar los datos con los que ha entrenado sus herramientas? El incumplimiento de estos principios en un desarrollo de inteligencia artificial en España podría ser objeto de reclamaciones ante la APED y acabar en la imposición de sanciones serias.

Para ilustrar el post, os dejamos la imagen que DALL-E nos devuelve si le pedimos una ilustración cyberpunk de una abogada de protección de datos.