Fabio Lauria

Más allá del algoritmo: cómo se entrenan y perfeccionan los modelos de inteligencia artificial

7 de abril de 2025
Compartir en las redes sociales

Cómo entrenar un modelo de inteligencia artificial

El entrenamiento de modelos de inteligencia artificial representa uno de los retos más complejos del desarrollo tecnológico contemporáneo. Mucho más que una simple cuestión algorítmica, el entrenamiento eficaz de un modelo requiere un enfoque metódico y multidisciplinar que integre la ciencia de datos, el conocimiento del dominio y la ingeniería de software. Como señala James Luke en su texto seminal"Beyond Algorithms: Delivering AI for Business", el éxito de una implantación de IA depende mucho más de la gestión de datos y el diseño sistémico que de los propios algoritmos. El panorama está cambiando rápidamente, con innovaciones como el modelo DeepSeek-R1 que redefinen el coste y la accesibilidad.

La base: recogida y gestión de datos

Más calidad que cantidad

Contrariamente a lo que se suele creer, la cantidad de datos no siempre es el factor determinante del éxito. La calidad y la representatividad de los datos son mucho más importantes. En este contexto, es crucial integrar distintas fuentes:

  • Datos patrimoniales: recogidos de forma ética y anonimizados por las aplicaciones existentes.
  • Datos autorizados: Obtenidos de proveedores fiables que cumplen estrictas normas de calidad.
  • Conjuntos de datos de fuentes abiertas: verificados cuidadosamente para garantizar su diversidad y exactitud.
  • Datos sintéticos: generados artificialmente para colmar lagunas y resolver problemas de privacidad.

Esta integración crea una base de formación completa que capta escenarios del mundo real al tiempo que mantiene las normas éticas y de privacidad.

El reto de la preparación de datos

El proceso de "gestión de datos" representa hasta el 80% del esfuerzo necesario en los proyectos de inteligencia artificial. Esta fase implica:

  • Depuración de datos: eliminación de incoherencias, duplicaciones y valores atípicos
  • Transformación de datos: Conversión a formatos adecuados para el tratamiento
  • Integración de datos: Fusión de distintas fuentes que a menudo utilizan esquemas y formatos incompatibles.
  • Tratamiento de los datos que faltan: estrategias como la imputación estadística o el uso de datos indirectos.

Como señaló Hilary Packer, Directora de Tecnología de American Express: "El momento clave para nosotros, sinceramente, fueron los datos. Se puede hacer la mejor selección de modelos del mundo... pero los datos son la clave. La validación y la precisión son el santo grial ahora mismo en la IA generativa".

Arquitectura de modelos: dimensionamiento correcto

La elección de la arquitectura del modelo debe guiarse por la naturaleza específica del problema a resolver, más que por tendencias o preferencias personales. Los distintos tipos de problemas requieren enfoques diferentes:

  • Modelos lingüísticos basados en transformadores para tareas que requieren una comprensión lingüística profunda
  • Redes neuronales convolucionales para el reconocimiento de imágenes y patrones
  • Redes neuronales gráficas para analizar relaciones complejas entre entidades
  • Aprendizaje por refuerzo para problemas de optimización y decisión
  • Arquitecturas híbridas que combinan múltiples enfoques para casos de uso complejos

La optimización arquitectónica requiere una evaluación sistemática entre diferentes configuraciones, centrándose en equilibrar el rendimiento y los requisitos computacionales, un aspecto que se ha vuelto aún más relevante con la llegada de modelos como DeepSeek-R1, que ofrecen capacidades de razonamiento avanzadas a costes significativamente más bajos.

Metodologías avanzadas de formación

Modelo de destilación

La destilación se ha revelado como una herramienta especialmente poderosa en el actual ecosistema de la IA. Este proceso permite crear modelos más pequeños y específicos que heredan las capacidades de razonamiento de modelos más grandes y complejos, como DeepSeek-R1.

Como muestra el caso de DeepSeek, la empresa destiló sus capacidades de razonamiento en varios modelos más pequeños, incluidos modelos de código abierto de la familia Llama de Meta y la familia Qwen de Alibaba. Estos modelos más pequeños pueden optimizarse posteriormente para tareas específicas, acelerando la tendencia hacia modelos rápidos y especializados.

Sam Witteveen, desarrollador de aprendizaje automático, observa: "Estamos empezando a entrar en un mundo en el que la gente utiliza varios modelos. No usan un solo modelo todo el tiempo". Esto incluye modelos cerrados de bajo coste como Gemini Flash y GPT-4o Mini, que "funcionan muy bien para el 80% de los casos de uso".

Aprendizaje multitarea

En lugar de entrenar modelos separados para habilidades relacionadas, el aprendizaje multitarea permite a los modelos compartir conocimientos entre distintas funciones:

  • Los modelos optimizan simultáneamente varios objetivos relacionados
  • La funcionalidad básica se beneficia de una mayor exposición a diferentes tareas
  • El rendimiento mejora en todas las tareas, especialmente en aquellas con datos limitados.
  • La eficiencia computacional aumenta gracias al uso compartido de componentes

Ajuste fino supervisado (SFT)

Para las empresas que operan en ámbitos muy específicos, donde la información no está ampliamente disponible en la web o en los libros que suelen utilizarse para entrenar modelos lingüísticos, el ajuste fino supervisado (SFT) es una opción eficaz.

DeepSeek demostró que es posible obtener buenos resultados con "miles" de conjuntos de datos de preguntas y respuestas. Por ejemplo, el ingeniero de IBM Chris Hay mostró cómo configuró un pequeño modelo utilizando sus propios conjuntos de datos específicos de matemáticas y obtuvo respuestas extremadamente rápidas que superaron el rendimiento del modelo o1 de OpenAI en las mismas tareas.

Aprendizaje por refuerzo (RL)

Las empresas que deseen entrenar un modelo que se ajuste aún más a preferencias específicas -por ejemplo, hacer que un chatbot de atención al cliente sea empático pero conciso- querrán aplicar técnicas de aprendizaje por refuerzo (RL). Este enfoque es especialmente útil si una empresa quiere que su chatbot adapte su tono y sus recomendaciones en función de los comentarios de los usuarios.

Generación mejorada por recuperación (RAG)

Para la mayoría de las empresas, la generación mejorada por recuperación (RAG) es la vía más sencilla y segura. Es un proceso relativamente sencillo que permite a las organizaciones anclar sus modelos con datos propios contenidos en sus bases de datos, garantizando que los resultados sean precisos y específicos del dominio.

Este enfoque también ayuda a contrarrestar algunos de los problemas de alucinación asociados a modelos como DeepSeek, que actualmente alucina en el 14% de los casos, frente al 8% del modelo o3 de OpenAI, según un estudio realizado por Vectara.

La combinación de destilación de modelos y RAG es donde reside la magia para la mayoría de las empresas, ya que se ha convertido en algo increíblemente fácil de aplicar, incluso para aquellos con conocimientos limitados en ciencia de datos o programación.

Evaluación y perfeccionamiento: más allá de las métricas de precisión

Una IA eficaz no sólo se mide en términos de precisión bruta, sino que requiere un marco de evaluación global que tenga en cuenta:

  • Precisión funcional: frecuencia con la que el modelo produce resultados correctos.
  • Robustez: Consistencia del rendimiento con entradas y condiciones variables.
  • Equidad: rendimiento uniforme en distintos grupos de usuarios y escenarios
  • Calibración: alineación entre las puntuaciones de confianza y la precisión real
  • Eficacia: requisitos de cálculo y memoria
  • Explicabilidad: Transparencia de los procesos de toma de decisiones, aspecto en el que destacan los modelos destilados de DeepSeek, que muestran su proceso de razonamiento.

El impacto de la curva de costes

El impacto más inmediato del lanzamiento de DeepSeek es su agresiva reducción de precios. La industria tecnológica esperaba que los costes se redujeran con el tiempo, pero pocos preveían lo rápido que esto ocurriría. DeepSeek demostró que los modelos potentes y abiertos pueden ser baratos y eficientes, creando oportunidades para la experimentación generalizada y la implementación rentable.

Amr Awadallah, Consejero Delegado de Vectara, hizo hincapié en este punto, señalando que el verdadero punto de inflexión no es solo el coste de formación, sino el coste de inferencia, que para DeepSeek es aproximadamente 1/30 del de los modelos o1 u o3 de OpenAI por coste de inferencia por token. "Los márgenes que OpenAI, Anthropic y Google Gemini han podido captar tendrán que reducirse ahora al menos un 90% porque no pueden seguir siendo competitivos con precios tan altos", afirma Awadallah.

Y no sólo eso, estos costes seguirán disminuyendo. El Director General de Anthropic, Dario Amodei, declaró recientemente que el coste de desarrollo de los modelos sigue disminuyendo a un ritmo de unas cuatro veces cada año. En consecuencia, la tarifa que los proveedores de LLM cobran por su uso también seguirá disminuyendo.

"Espero que el coste llegue a cero", afirma Ashok Srivastava, director de desarrollo de Intuit, una empresa que ha impulsado la IA en sus programas de contabilidad y fiscalidad, como TurboTax y Quickbooks. "...y la latencia llegará a cero. Simplemente se convertirán en capacidades básicas que podremos utilizar".

Conclusión: el futuro de la IA empresarial es abierto, barato y basado en datos

DeepSeek y Deep Research de OpenAI son algo más que nuevas herramientas en el arsenal de la IA: son signos de un cambio profundo en el que las empresas desplegarán masas de modelos creados a propósito, extremadamente rentables, competentes y arraigados en los datos y el enfoque propios de la empresa.

Para las empresas, el mensaje es claro: las herramientas para crear potentes aplicaciones de IA específicas de un dominio están al alcance de la mano. Si no las aprovechan, corren el riesgo de quedarse atrás. Pero el verdadero éxito vendrá de cómo se curen los datos, se exploten técnicas como la RAG y la destilación, y se innove más allá de la fase de preentrenamiento.

Como dijo Packer de AmEx: las empresas que gestionen sus datos correctamente serán las que lideren la próxima ola de innovación en IA.

Fabio Lauria

CEO y Fundador | Electe

CEO de Electe, ayudo a las PYME a tomar decisiones basadas en datos. Escribo sobre inteligencia artificial en el mundo empresarial.

Más populares
Regístrate para recibir las últimas noticias

Reciba semanalmente noticias e información en su buzón
. ¡No se lo pierda!

¡Gracias! ¡Tu envío ha sido recibido!
¡Ups! Algo salió mal al enviar el formulario.