El desarrollo de las aplicaciones de Inteligencia Artificial, abre el debate sobre cómo han sido entrenados esas herramientas digitales.
El Político
El desarrollo de nuevas tecnologías siempre genera controversia. Pero el avance de la Inteligencia Artificial – IA es un fenómeno disruptivo, que lo está cambiando todo.
El trabajo de oficina, el teletrabajo, la educación, la legislación, la programación, el arte, y hasta la medica, están siendo tocados y cambiados por la IA.
Las grandes empresas tecnológicas ahora compiten de manera más agresiva. Pues quien domine la IA tendrá el control y el poder que se genera por estar en la cresta de la ola tecnológica.
Pero ahora surge una nueva controversia. Pues la IA responde a unos patrones otorgados por el ser humano, a una base de datos, a una base de información previa, sobre la cual las herramientas tecnológicas ofrecen sus respuestas.
De allí que surjan ahora muchas preguntas. ¿De dónde salió la data? ¿quién decide lo que es bueno y lo que no en esa data? ¿Hasta qué punto se está cruzando la barrera de los derechos de autor?
5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso https://t.co/2uQq1CkMUf pic.twitter.com/O0Tfy5zj9U
— xataka (@xataka) April 21, 2023
Somos, utilizados sin saberlo
Empresas como Meta (LLaMA), OpenAI (ChatGPT, DALL-E), Stability AI (Stable Diffusion, StableLM) o Google (Bard), han entrenado esos modelos usando grandes conjuntos de información de los que no se sabe demasiado.
Una investigación de The Washington Post da más pistas en uno de esos casos. Medio que se ha topado con una sorpresa, pues 5.000 artículos de Javier Pastor, Editor Senior en Xataka.com y articulista de The Washington Post, forman parte del entrenamiento.
Ninguna de las empresas que son actualmente punta de lanza en el ámbito de la IA generativa dan demasiados datos sobre cómo han entrenado sus modelos. Y sin embargo, hay quien ha intentado desentrañar esos procesos.
La idea de que solo gigantes tecnológicos como Google, Microsoft, Apple y OpenAI podrían tener acceso a un corpus de información lo suficientemente grande como para entrenar un modelo de inteligencia artificial capaz de recordar casi todas las palabras publicadas, ha sido objeto… pic.twitter.com/YWT8Bs6NGR
— Tony Lantes (@Tony_Lantes) April 20, 2023
Analizando 15 millones de sitios web
En Wapo, app de citas gay, se centraban en el análisis del dataset Google C4, que ha sido usado para entrenar al menos a dos modelos LLM representativos.
El primero, el propio Google T5, algo menos conocido, pero comparable —y coetáneo— de GPT-3. El segundo, LLaMA, el modelo LLM de Facebook del que hablamos recientemente.
Ese conjunto de datos cuenta con 15 millones de sitios web, de los cuales pudieron categorizar 10 millones. Pues los otros 5 ya no están activos en Internet. Entre los más prominente están —curiosamente— Google Patents, mientras que el segundo es Wikipedia y el tercero, Scribd.
?: ÚLTIMA HORA
Elon Musk anuncia que va a denunciar a Microsoft (relacionado con OpenAI) por utilizar los datos de Twitter para entrenar sus modelos de lenguaje IA ilegalmente.
¿Ha empezado una guerra IA? Déjalo en los comentarios ? pic.twitter.com/iOvTRb6EHo
— Javi Manzano (@javimanzanoes) April 19, 2023
Más sorpresas interesantes
En el número 190 en ese particular ranking de relevancia en esas fuentes está b-ok.org, una plataforma que distribuía ilegalmente e-books protegidos por derechos de autor. También había algunos sitios web que contenían datos sensibles como bases de datos de votantes, que son públicas. Pero que cuyo uso en estos casos podría derivar obviamente en suspicacias.
El análisis pronto ofrece conclusiones sobre cómo entre las grandes fuentes presentes en ese conjunto de datos están las de los medios online. The New York Times, The Guardian o el propio Wapo, representan una parte decente de ese entrenamiento, algo que —como en otros casos— está haciendo que algunos de esos medios protesten. "Si quieres usar mis contenidos para entrenar, págame", parecen decir potenciales demandas como la de The Wall Street Journal.
"El auge de la IA no sería posible sin las GPU de #Nvidia, que se utilizaron para entrenar a ChatGPT en colaboración con #Microsoft. #ChatGPT. #IA #GPU #Nvidia"https://t.co/NBFKCN8bGQ
via @FOREXcomLATAM
— ECOTEC DATA SOLUTIONS (@EcotecDataS) April 20, 2023
¿Qué hace mi blog ahí?
Pero junto a los medios de cierta entidad, otra de las fuentes del entrenamiento (3,8% en total) son los blogs. Medio millón de blogs personales en plataformas como WordPress, Tumblr, Blogspot o Live Journal.
En ese artículo de The Washington Post hay una última parte en la que se puede comprobar si un sitio web en particular está entre los que se usan en el dataset Google C4.
Al probar algunos, vimos que Xataka no está. Pero sí están unos pocos tokens de Xataka Foto y Xataka Android.
Al investigar un poco más a fondo, para ver si el blog de nuestro redactor estaba allí, sorpresa. Pues sí. Estaba. No es que la presencia fuera excesiva. Pues un token suele equivaler a una palabra o, como mucho a una frase. Pero aún así aparecía con una recolección de 5.100 de ellos.
¿Por qué están ahí? Desde luego, no hemos dado permiso para ello. El blog, Incognitosis se publica desde mayo de 2005.
Y aunque durante los primeros tiempos ni siquiera pensamos en qué tipo de licencia teníamos nuestros contenido, terminamos publicándolo con licencia CC BY-SA. En el pie del blog lo indicamos claramente.
Me acabo de enterar de que Elon Musk quiere utilizar las bases de datos de Twitter (todos los tuits publicados, DESDE EL PRIMERO) para entrenar una IA…
Gente, lo del Mechanicum Oscuro va a quedar en una broma al lado de esto. pic.twitter.com/ptquopSM8u
— Cαɳαɱαɾƚԋ (@Canadelete) April 20, 2023
¿Qué supone esto?
En nuestro caso, desde luego, una pequeña rabieta. No me importa que se aprovechen nuestros contenidos. Pero agradeceríamos que nos avisasen y nos enlazasen, como bien señala la licencia.
Esa pequeña rabieta puede ir a mucho más en el caso de medios con fines comerciales y de empresas, entidades o personas que no han dado su permiso explícito para que sus contenidos acaben formando parte de esos conjuntos de datos.
Es la razón por la que estamos comenzando a ver demandas como la que afecta a GitHub Copilot en el ámbito de la programación.
O la que también han recibido los creadores de Stable Diffusion, por su entrenamiento con imágenes de Getty.
Las cosas probablemente podrían ir a más, sobre todo cuando algunas empresas reconocen abiertamente cómo han entrenado a sus plataformas recolectando datos de forma indiscriminada.
En este sentido, David Holz, fundador de Midjourney, lo hacía el pasado mes de diciembre. Le preguntaron si había pedido permiso para entrenar su modelo con imágenes con copyright. Y su respuesta fue:
"No. No hay realmente una forma de tomar cien millones de imágenes y saber de dónde provienen. Estaría bien que las imágenes tuvieran metadatos incrustados sobre el propietario del copyright o algo así. Pero eso no existe; no hay ningún registro. No hay forma de encontrar una imagen en Internet, rastrearla automáticamente hasta su propietario y hacer algo para autenticarla".
La declaración es desde luego peligrosa para Holz. Pero revela un problema real —en muchos casos la trazabilidad de las imágenes es compleja— y otro potencial. Uno de demandas y más demandas a los creadores de estos modelos.
¿ENTRENAR A UNA IA PARA JUEGOS DE GUERRA?, JAMES CÁMERON YA NOS ADVIRTIÓ DE ESTO HACE AÑOS
FUERA DE LA BROMA, SIN UNA MENTALIDAD CERCANA A LA HUMANA, LA MAYORÍA DE LOS BLANCOS SERÍAN "EQUIVOCADOS", INTELIGENCIA SIN PENSAMIENTO NI ENTENDIMIENTO DEL "RAZONAMIENTO HUMANO", DUDOSO pic.twitter.com/0oHCEDMzAR— Señor Oscuridad (@edgardozcarril1) April 18, 2023
Datasets en la era de la Inteligencia Artificial
OpenAI dio algunos detalles sobre el proceso de entrenamiento de su modelo LLM en 2020, cuando mostró el estudio que daría lugar a GPT-3 (y a posteriori, a ChatGPT).
La Wikipedia, por ejemplo, fue una pequeña parte de ese entrenamiento. Representaba el 3% del mismo. Había un gran "corpus" con dos grupos de libros (Books1, Books2), que representaban el 16% entre ambos. Pero los grandes conjuntos de datos procedían de texto extraído de la web.
¿Qué libros incluye ese "corpus"? Se supone que obras de dominio público. Pero la cosa no es del todo segura. Hay quien trató de descubrirlo, y acabó creando un corpus propio llamado books3.
Como explicaban en Gregoreite, uno de ellos, WebText2, es el texto de páginas web que provienen de todos los enlaces salientes de Reddit de posts con más de tres votos positivos.
Ese texto ya era el 22% del conjunto de datos de entrenamiento. Pero su peso en el entrenamiento (hay más detalles en la publicación que OpenAI hizo en 2019) es mucho mayor por ejemplo que el de Common Crawl, y es solo inferior al de Wikipedia.
El otro, casi el triple de grande, era el llamado Common Crawl, que contiene petabytes de datos recolectados, tras rastrear la web desde 2008. En esos datos hay contenidos de páginas web. Pero también metadatos y extractos, de textos que en algunos casos están ligeramente filtrados.
Hay imágenes, aunque los chatbots las ignoran, y en esencia lo que hace Common Crawl tiene su sentido práctico cuando accedemos a Internet Archive, el valiosísimo recurso que —entre otras cosas— permite acceder a sitios web en distintos momentos del pasado.
Ha habido otros analistas que han tratado de desgranar qué datos forman parte de esos grandes datasets. En LifeArchitech, Alan Thompson publicó un completo estudio. Allí desgrana los conjuntos de datos de varios modelos e incluso analiza cuáles son las grandes fuentes de cada uno de esos grandes datasets.
En ese estudio destacaba —por ejemplo— el papel de las patentes que Google almacena en ese servicio, y que representaban nada menos que el 0,48% de Common Crawl.
Parece que todo bien por el momento pero lo que dicen tiene todo el sentido del mundo, lo peor de todo es que entrenar una IA con base en twitter suena a la peor idea del mundo.https://t.co/d5m5MwCZiR
— Cholo Goth (@eldealado_) April 19, 2023
En resumen
Hay varias conclusiones en esos estudios. Una de ellas es que el corpus dedicado a los libros es ínfimo, se estima que un 1% de todos los libros publicados (y de hecho, solo porciones de ellos). Otra, que el inglés es absolutamente dominante en esos conjuntos de datos. Algo lógico, si tenemos en cuenta que la lengua franca de Internet es precisamente el idioma sajón.
Es evidente que estos conjuntos de datos son enormes, pero imperfectos. Y es probable que teniendo en cuenta la explosión que estamos viviendo en este ámbito, haya mucho trabajo de futuro precisamente en cómo se entrena y sobre todo con qué datos se entrena a estos modelos.
La sensación es que estamos en un momento en el que la cantidad prima sobre la calidad, y lo que precisamente necesitamos es que la calidad empiece a pesar sobre la cantidad.