El entrenamiento de modelos de inteligencia artificial representa uno de los retos más complejos del desarrollo tecnológico contemporáneo. Mucho más que una simple cuestión algorítmica, el entrenamiento eficaz de un modelo requiere un enfoque metódico y multidisciplinar que integre datos, ciencia de datos, conocimiento del dominio e ingeniería de software. Como señala James Luke en su texto seminal"Beyond Algorithms: Delivering AI for Business", el éxito de una implantación de IA depende mucho más de la gestión de datos y el diseño sistémico que de los propios algoritmos. El panorama está cambiando rápidamente, con innovaciones como el modelo DeepSeek-R1 que redefinen el coste y la accesibilidad.
Contrariamente a lo que se suele creer, la cantidad de datos no siempre es el factor determinante del éxito. La calidad y la representatividad de los datos son mucho más importantes. En este contexto, es crucial integrar distintas fuentes:
Esta integración crea una base de formación completa que capta escenarios del mundo real al tiempo que mantiene las normas éticas y de privacidad.
El proceso de "gestión de datos" representa hasta el 80% del esfuerzo necesario en los proyectos de inteligencia artificial. Esta fase implica:
La elección de la arquitectura del modelo debe guiarse por la naturaleza específica del problema a resolver, más que por tendencias o preferencias personales. Los distintos tipos de problemas requieren enfoques diferentes:
La optimización arquitectónica requiere una evaluación sistemática entre diferentes configuraciones, centrándose en equilibrar el rendimiento y los requisitos computacionales, un aspecto que se ha vuelto aún más relevante con la llegada de modelos como DeepSeek-R1, que ofrecen capacidades de razonamiento avanzadas a costes significativamente más bajos.
La destilación se ha revelado como una herramienta especialmente poderosa en el actual ecosistema de la IA. Este proceso permite crear modelos más pequeños y específicos que heredan las capacidades de razonamiento de modelos más grandes y complejos, como DeepSeek-R1.
Como muestra el caso de DeepSeek, laempresa destiló sus capacidades de razonamiento en varios modelos más pequeños, incluidos modelos de código abierto de la familia Llama de Meta y la familia Qwen de Alibaba. Estos modelos más pequeños pueden optimizarse posteriormente para tareas específicas, acelerando la tendencia hacia modelos rápidos y especializados.
Sam Witteveen, desarrollador de aprendizaje automático, observa: "Estamos empezando a entrar en un mundo en el que la gente utiliza varios modelos. No usan un solo modelo todo el tiempo". Esto incluye modelos cerrados de bajo coste como Gemini Flash y GPT-4o Mini, que "funcionan muy bien para el 80% de los casos de uso".
En lugar de entrenar modelos separados para habilidades relacionadas, el aprendizaje multitarea permite a los modelos compartir conocimientos entre distintas funciones:
Para las empresas que operan en ámbitos muy específicos, donde la información no está ampliamente disponible en la web o en los libros que suelen utilizarse para entrenar modelos lingüísticos, el ajuste fino supervisado (SFT) es una opción eficaz.
DeepSeek demostró que es posible obtener buenos resultados con "miles" de conjuntos de datos de preguntas y respuestas. Por ejemplo, el ingeniero de IBM Chris Hay mostró cómo configuró un pequeño modelo utilizando sus propios conjuntos de datos específicos de matemáticas y obtuvo respuestas extremadamente rápidas que superaron el rendimiento del modelo o1 de OpenAI en las mismas tareas.
Las empresas que deseen entrenar un modelo que se ajuste aún más a preferencias específicas -por ejemplo, hacer que un chatbot de atención al cliente sea empático pero conciso- querrán aplicar técnicas de aprendizaje por refuerzo (RL). Este enfoque es especialmente útil si una empresa quiere que su chatbot adapte su tono y sus recomendaciones en función de los comentarios de los usuarios.
Para la mayoría de las empresas, la generación mejorada por recuperación (RAG) es la vía más sencilla y segura. Es un proceso relativamente sencillo que permite a las organizaciones anclar sus modelos con datos propios contenidos en sus bases de datos, garantizando que los resultados sean precisos y específicos del dominio.
Este enfoque también ayuda a contrarrestar algunos de los problemas de alucinación asociados a modelos como DeepSeek, que actualmente alucina en el 14% de los casos, frente al 8% del modelo o3 de OpenAI, según un estudio realizado por Vectara.
La combinación de destilación de modelos y RAG es donde reside la magia para la mayoría de las empresas, ya que se ha convertido en algo increíblemente fácil de aplicar, incluso para aquellos con conocimientos limitados en ciencia de datos o programación.
Una IA eficaz no sólo se mide en términos de precisión bruta, sino que requiere un marco de evaluación global que tenga en cuenta:
El impacto más inmediato del lanzamiento de DeepSeek es su agresiva reducción de precios. La industria tecnológica esperaba que los costes se redujeran con el tiempo, pero pocos preveían lo rápido que esto ocurriría. DeepSeek demostró que los modelos potentes y abiertos pueden ser baratos y eficientes, creando oportunidades para la experimentación generalizada y la implementación rentable.
Amr Awadallah, Consejero Delegado de Vectara, hizo hincapié en este punto, señalando que el verdadero punto de inflexión no es solo el coste de formación, sino el coste de inferencia, que para DeepSeek es aproximadamente 1/30 del de los modelos o1 u o3 de OpenAI por coste de inferencia por token. "Los márgenes que OpenAI, Anthropic y Google Gemini han podido captar tendrán que reducirse ahora al menos un 90% porque no pueden seguir siendo competitivos con precios tan altos", afirma Awadallah.
Y no sólo eso, estos costes seguirán disminuyendo. El Director General de Anthropic, Dario Amodei, declaró recientemente que el coste de desarrollo de los modelos sigue disminuyendo a un ritmo de unas cuatro veces cada año. En consecuencia, la tarifa que los proveedores de LLM cobran por su uso también seguirá disminuyendo.
"Espero que el coste llegue a cero", afirma Ashok Srivastava, director de desarrollo de Intuit, una empresa que ha estado impulsando con fuerza la IA en sus ofertas de software fiscal y contable, como TurboTax y Quickbooks. "...y la latencia llegará a cero. Simplemente se convertirán en capacidades básicas que podremos utilizar".
DeepSeek y Deep Research de OpenAI son algo más que nuevas herramientas en el arsenal de la IA: son signos de un cambio profundo en el que las empresas desplegarán masas de modelos creados a propósito, extremadamente rentables, competentes y arraigados en los datos y el enfoque propios de la empresa.
Para las empresas, el mensaje es claro: las herramientas para crear potentes aplicaciones de IA específicas de un dominio están al alcance de la mano. Si no las aprovechan, corren el riesgo de quedarse atrás. Pero el verdadero éxito vendrá de cómo se curen los datos, se exploten técnicas como la RAG y la destilación, y se innove más allá de la fase de preentrenamiento.
Como dijo Packer de AmEx: las empresas que gestionen sus datos correctamente serán las que lideren la próxima ola de innovación en IA.