La industria invisible que hace posible ChatGPT, Stable Diffusion y cualquier otro sistema moderno de IA
Cuando utilizas ChatGPT para escribir un correo electrónico o generar una imagen con Midjourney, rara vez piensas en lo que hay detrás de la "magia" de la inteligencia artificial. Sin embargo, detrás de cada respuesta inteligente y de cada imagen generada se esconde una industria multimillonaria de la que poca gente habla: el mercado de datos de entrenamiento de IA.
Este sector, que según MarketsandMarkets alcanzará los 9.580 millones de dólares en 2029 con una tasa de crecimiento del 27,7% anual, es el verdadero motor de la inteligencia artificial moderna. Pero, ¿cómo funciona exactamente este negocio oculto?
Unas pocas empresas dominan el mundo de los datos de entrenamiento de IA de las que la mayoría de la gente nunca ha oído hablar:
Scale AI, la mayor empresa del sector con una cuota de mercado del 28%, fue valorada recientemente en 29.000 millones de dólares tras la inversión de Meta. Sus clientes empresariales pagan entre 100.000 y varios millones de dólares al año por datos de alta calidad.
Appen, con sede en Australia, gestiona una red mundial de más de un millón de especialistas en 170 países que etiquetan y conservan manualmente los datos para la IA. Empresas como Airbnb, John Deere y Procter & Gamble utilizan sus servicios para "enseñar" a sus modelos de IA.
Paralelamente, existe un ecosistema de código abierto liderado por organizaciones como LAION (Large-scale Artificial Intelligence Open Network), una organización alemana sin ánimo de lucro que creó LAION-5B, el conjunto de datos de 5.850 millones de pares imagen-texto que hizo posible Stable Diffusion.
Common Crawl publica mensualmente terabytes de datos web sin procesar que se utilizan para entrenar GPT-3, LLaMA y muchos otros modelos lingüísticos.
Lo que el público no sabe es lo caro que se ha vuelto entrenar un modelo moderno de IA. Según Epoch AI, los costes han aumentado entre 2 y 3 veces al año en los últimos ocho años.
La cifra más sorprendente? Según AltIndex.com, los costes de formación en IA han aumentado un 4.300% desde 2020.
Una de las cuestiones más controvertidas se refiere al uso de material protegido por derechos de autor. En febrero de 2025, el tribunal de Delaware dictaminó en el caso Thomson Reuters contra ROSS Intelligence que el entrenamiento con IA puede constituir una infracción directa de los derechos de autor, rechazando la defensa del "uso justo".
La Oficina de Derechos de Autor de EE.UU. publicó un informe de 108 páginas en el que concluye que determinados usos no pueden defenderse como uso legítimo, lo que allana el camino a unos costes de licencia potencialmente enormes para las empresas de IA.
Una investigación del MIT Technology Review reveló que DataComp CommonPool, uno de los conjuntos de datos más utilizados, contiene millones de imágenes de pasaportes, tarjetas de crédito y certificados de nacimiento. Con más de 2 millones de descargas en los últimos dos años, esto plantea enormes problemas de privacidad.
Los expertos predicen que en 2028 se habrá utilizado la mayor parte del texto público generado por humanos disponible en línea. Este escenario de "pico de datos" está impulsando a las empresas hacia soluciones innovadoras:
La Ley de Transparencia de la IA de California obligará a las empresas a revelar los conjuntos de datos utilizados para la formación, mientras que la UE está aplicando requisitos similares en la Ley de IA.
Para las empresas que quieren desarrollar soluciones de IA, es crucial comprender este ecosistema:
El mercado de datos de entrenamiento de IA está valorado en 9.580 millones de dólares y crece a un ritmo del 27,7% anual. Esta industria invisible no solo es el motor de la IA moderna, sino que también representa uno de los mayores retos éticos y jurídicos de nuestro tiempo.
En el próximo artículo exploraremos cómo las empresas pueden adentrarse concretamente en este mundo, con una guía práctica para empezar a desarrollar soluciones de IA utilizando los conjuntos de datos y las herramientas disponibles hoy en día.
Para quienes deseen saber más ahora, hemos elaborado una guía detallada con la hoja de ruta de implantación, los costes específicos y la pila completa de herramientas, que puede descargarse gratuitamente con la suscripción newsletter.
Enlaces útiles para empezar de inmediato:
Fuentes técnicas:
No espere a la "revolución de la IA". Créala. Dentro de un mes podrías tener tu primer modelo operativo, mientras otros siguen planificando.