Horacio escribió un poema que rezaba: exegi monumentum aere perennius, esto es, «he erigido un monumento más duradero que el bronce» y no anduvo desencaminado. Sus textos han perdurado siglos y es un gran maestro de la literatura, alguien que pudo escribir con orgullo, incluso modestia, esa rúbrica tan imponente.
Al igual que Horacio, la inteligencia artificial (IA) disfruta de honores en vida y tiene más seguidores que detractores. Estamos quizá, ante el nacimiento de una nueva forma epistemológica, de un monumento que perdure más que el bronce o quién sabe qué cosas; quizá sea más artificiosa que artificial y menos inteligente de lo que esperábamos.
La IA surge en un momento de escaso recato regulatorio. Por ejemplo, la noción de dato personal que ha querido imprimir la regulación europea puede ser variable, puesto que se basa en la posibilidad de identificación de un sujeto. Así, dependiendo de la tecnología disponible, un dato puede convertirse en personal o no, también puede serlo o no dependiendo de quién lo maneje. Incluso, los hay susceptibles de ser personales según el contexto como la forma de caminar. Así lo destaca un estudio en Journal of the Royal Society Interface de 2024, que presentó un modelo entrenado en datos de plataformas de fuerza para analizar variaciones en la forma de andar.
El modelo de IA, para poder generar contenido atractivo a los usuarios, debe ser capaz de realizar una serie de cálculos estadísticos complejos y necesita primero aprender un patrón. Así, denominamos dataset -recopilación masiva de datos estructurados- a la base de información que se destina al entrenamiento del modelo, es decir, a enseñar ese comportamiento.
El material para alimentar al sistema de IA se obtiene de forma indiscriminada, y con fuentes de cumplimiento que no suele ser contrastado. Por tanto, la materia prima tiene -por el momento- problemas sistémicos que varían de potenciales infracciones en materia de propiedad intelectual -como la sentencia del tribunal de Hamburgo sobre la primera reclamación de un autor de una fotografía que se extrajo de un dataset que contenía más de cinco mil millones de páginas web- hasta en lo relativo a datos personales.
La falta de transparencia y el efecto conocido como caja negra no es un monopolio del entrenamiento de la IA; también ocurre en el mercado de la publicidad digital: las operaciones de subasta conocidas como Real-time Bidding, se llevan a cabo de manera opaca, sin garantías sobre el origen de la información ni su tratamiento. Existen sistemas preventivos en el mundo de la publicidad, como el registro de archivos concretos de exclusión del tipo robots.txt o ads.txt, aunque la sentencia del tribunal de Hamburgo determina que el lenguaje natural puede ser conocido por una máquina y actuar en consecuencia.
Por otro lado, la obtención automatizada de datos se reduce al propósito de elaborar el dataset para la fase de entrenamiento del modelo. La magnitud requerida para ello contraviene por naturaleza una minimización estricta. De igual modo, la fase de monitorización, necesaria para evaluar el rendimiento e interacción con los usuarios, plantea problemas con la limitación de la finalidad, pues supone un nuevo tratamiento de datos.
Puede haber todavía más problemas prácticos que complican la garantía de respeto a la privacidad. Por ejemplo, si un interesado ejerce su derecho de oposición o supresión, ¿Cómo se ajusta un modelo de inteligencia artificial que ya ha integrado sus datos? Técnicas emergentes como el desaprendizaje de los modelos (machine unlearning) intentan dar solución, pero su implementación está lejos de ser plenamente efectiva, mucho menos universal.
Según un informe del Hamburg Commissioner for Data Protection and Freedom of Information justifica que los modelos de lenguaje (Large Language Models) no almacenan datos personales, sino representaciones vectoriales de los mismos. Por ende, su simple almacenamiento no se considera tratamiento de datos personales. De estar de acuerdo con esa postura, los derechos de los interesados no aplicarían directamente al modelo, pero sí a los datos de input y output gestionados por el proveedor o usuario del sistema.
Con la obtención de los datos y la fase de interacción del usuario con el modelo (lapso entre input y output) como protagonista, parece que la protección de datos personales esté circunscrita a las probabilidades de que el modelo arroje o no datos personales, lo que sí implicaría un tratamiento intrínseco que no debería haberse producido.
Soluciones como la k-anonimidad o la privacidad diferencial ayudan a mitigar los riesgos en privacidad a los que se exponen los usuarios en el uso de productos basados en IA. Aunque la dirección regulatoria es clara, se debe reenfocar el proceso de innovación para que cumpla desde el diseño con un modelaje que evite tratar datos o, en su caso, que mitigue el riesgo desde su propia concepción.