Newsletter

Evolución de los LLM: breve panorámica del mercado

Menos de 2 puntos porcentuales separan a los mejores LLM en los principales puntos de referencia: la guerra tecnológica terminó en empate. La verdadera batalla de 2025 se juega en los ecosistemas, la distribución y el coste: DeepSeek demostró que puede competir con 5,6 millones de dólares frente a los 78-191 millones de GPT-4. ChatGPT domina la marca (76% de notoriedad) a pesar de que Claude ganó el 65% de las pruebas técnicas. Para las empresas, la estrategia ganadora no consiste en elegir "el mejor modelo", sino en orquestar modelos complementarios para distintos casos de uso.

La guerra de los modelos lingüísticos 2025: de la paridad técnica a la batalla de los ecosistemas

El desarrollo de grandes modelos lingüísticos ha alcanzado un punto de inflexión crítico en 2025: la competición ya no se juega en las capacidades fundamentales de los modelos -ahora esencialmente equivalentes en los principales puntos de referencia-, sino en el ecosistema, la integración y la estrategia de despliegue. Aunque Claude Sonnet 4.5 de Anthropic mantiene estrechos márgenes de superioridad técnica en pruebas de referencia específicas, la verdadera batalla se ha desplazado a otro terreno.

El empate técnico: cuando los números se igualan

Prueba de rendimiento MMLU (Massive Multitask Language Understanding)

  • Soneto Claude 4.5: 88,7%.
  • GPT-4o: 88,0%.
  • Gemini 2.0 Flash: 86,9%.
  • DeepSeek-V3: 87,1%.

Las diferencias son marginales: menos de 2 puntos porcentuales separan a los mejores. Según el Informe sobre el Índice de IA 2025 de Stanford, "la convergencia de las capacidades básicas de los modelos lingüísticos representa una de las tendencias más significativas de 2024-2025, con profundas implicaciones para las estrategias competitivas de las empresas de IA".

Capacidad de razonamiento (GPQA Diamond)

  • Soneto Claude 4: 65,0%.
  • GPT-4o: 53,6%.
  • Gemini 2.0 Pro: 59,1%.

Claude conserva una ventaja significativa en tareas de razonamiento complejo, pero GPT-4o sobresale en velocidad de respuesta (latencia media de 1,2s frente a los 2,1s de Claude) y Gemini en procesamiento multimodal nativo.

La revolución de DeepSeek: El cambio de juego chino

Enero de 2025 vio la entrada disruptiva de DeepSeek-V3, que demostró cómo pueden desarrollarse modelos competitivos con 5,6 millones de dólares frente a los 78-191 millones de GPT-4/Gemini Ultra. Marc Andreessen lo calificó de "uno de los avances más asombrosos y, como código abierto, un profundo regalo para el mundo".

Especificaciones de DeepSeek-V3:

  • 671.000 millones de parámetros totales (37.000 millones activos mediante la mezcla de expertos)
  • Coste de formación: 5,576 millones de dólares
  • Rendimiento: supera al GPT-4o en algunas pruebas matemáticas.
  • Arquitectura: Multi-head Latent Attention (MLA) + DeepSeekMoE

El impacto: las acciones de Nvidia cayeron un 17% en una única sesión posterior al anuncio, con el mercado revalorizando las barreras de entrada al desarrollo de modelos.

Percepción pública frente a realidad técnica

ChatGPT mantiene un dominio indiscutible del conocimiento de la marca: una investigación del Pew Research Center (febrero de 2025) muestra que el 76% de los estadounidenses asocia la "IA conversacional" exclusivamente con ChatGPT, mientras que sólo el 12% conoce Claude y el 8% utiliza activamente Gemini.

Paradoja: Claude Sonnet 4 supera a GPT-4o en el 65% de las pruebas técnicas, pero sólo tiene un 8% de cuota de mercado de consumo frente al 71% de ChatGPT (datos de Similarweb, marzo de 2025).

Google responde con una integración masiva: Gemini 2.0 nativo en Search, Gmail, Docs, Drive, un ecosistema estratégico frente a un producto independiente. 2.100 millones de usuarios de Google Workspace representan una distribución instantánea sin adquisición de clientes.

Uso del ordenador y agentes: La próxima frontera

Claude Computer Use (beta octubre 2024, producción primer trimestre 2025)

  • Funciones: control directo de ratón y teclado, navegación por el navegador e interacción con aplicaciones.
  • Adopción: 12% de clientes empresariales Uso antrópico del ordenador en la producción
  • Limitaciones: aún hay un 14% de fallos en tareas complejas de varios pasos.

GPT-4o con Visión y Acciones

  • Integración con Zapier: más de 6000 aplicaciones controlables
  • GPT personalizadas: 3 millones publicadas, 800K en uso activo
  • Reparto de ingresos por GPT creadoras: 10 M$ distribuidos en el cuarto trimestre de 2024

Gemini Deep Research (enero de 2025)

  • Investigación autónoma multifuente con evaluación comparativa
  • Genera informes completos a partir de una sola solicitud
  • Tiempo medio: 8-12 minutos por informe de más de 5000 palabras

Gartner predice que el 33% de los trabajadores del conocimiento utilizarán agentes autónomos de IA a finales de 2025, frente al 5% actual.

Diferencias filosóficas en materia de seguridad

OpenAI: seguridad mediante restricciones

  • Rechaza el 8,7% de consumo puntual (datos internos de filtraciones de OpenAI)
  • Una política de contenidos estricta provoca el abandono del 23% de los desarrolladores.
  • Marco de preparación pública con red-teaming continuo

Antrópico: "IA constitucional

  • Modelo formado en principios éticos explícitos
  • Rechazo selectivo: 3,1% puntual (OpenAI más permisivo)
  • Transparencia en la toma de decisiones: explicar por qué se deniegan las solicitudes

Google: "Máxima seguridad, mínima controversia".

  • Filtros de mercado más estrictos: 11,2% de bloqueo puntual
  • Géminis Fallo de imagen febrero 2024 (sobrecorrección de sesgo) guía extrema precaución
  • El enfoque empresarial reduce la tolerancia al riesgo

Meta Llama 3.1: cero filtros incorporados, responsabilidad sobre el implementador-filosofía opuesta.

Especialización vertical: el verdadero diferenciador

Sanidad:

  • Med-PaLM 2 (Google): 85,4% en MedQA (frente al 77% de los mejores médicos humanos)
  • Claude en Epic Systems: adoptado por 305 hospitales estadounidenses para el apoyo a la decisión clínica

Legal:

  • Harvey AI (GPT-4 personalizado): 102 de los 100 principales bufetes de abogados, 100 millones de dólares de ARR
  • CoCounsel (Thomson Reuters + Claude): 98% de precisión en investigación jurídica

Finanzas:

  • Bloomberg GPT: formación sobre 363.000 millones de fichas financieras propias
  • Goldman Sachs Marcus AI (GPT-4 base): aprueba préstamos un 40% más rápido

La verticalización genera una disposición a pagar 3,5 veces superior a los modelos genéricos (encuesta McKinsey, 500 compradores empresariales).

Llama 3.1: la estrategia de código abierto de Meta

Parámetros 405B, capacidades competitivas con GPT-4o en muchos benchmarks, pesos totalmente abiertos. Estrategia Meta: comoditizar la capa de infraestructura para competir en la capa de producto (gafas Ray-Ban Meta, WhatsApp AI).

Adopción Llama 3.1:

  • Más de 350.000 descargas el primer mes
  • Más de 50 start-ups crean verticales de IA en Llama
  • Coste de alojamiento autogestionado: 12.000 $/mes frente a los más de 50.000 $ que cuestan los modelos cerrados de API para un uso equivalente.

Contraintuitivo: Meta pierde miles de millones de dólares en Reality Labs pero invierte masivamente en IA abierta para proteger el negocio principal de la publicidad.

Ventanas contextuales: la carrera por millones de fichas

  • Claude Sonnet 4.5: 200.000 fichas
  • Gemini 2.0 Pro: ficha de 2M (la más larga disponible en el mercado)
  • GPT-4 Turbo: 128K fichas

Gemini 2M context permite el análisis de bases de código completas, más de 10 horas de vídeo y miles de páginas de documentación. Google Cloud informa de que el 43 % de los POC empresariales utilizan un contexto superior a 500 000 tokens.

Adaptabilidad y personalización

Proyectos y estilos Claude:

  • Instrucciones personalizadas de conversación cruzada persistente
  • Preajustes de estilo: Formal, Conciso, Explicativo
  • Carga de bases de conocimientos (hasta 5 GB de documentos)

GPT Store y GPT personalizados:

  • 3M GPTs publicados, 800K de uso mensual activo
  • El mejor creador gana 63.000 $ al mes (ingresos compartidos)
  • El 71% de las empresas utiliza ≥1 GPT personalizada internamente

Extensiones Gemini:

  • Integración nativa Gmail, Calendar, Drive, Maps
  • Contexto del espacio de trabajo: lectura del correo electrónico y el calendario para sugerencias proactivas
  • 1.200 millones de acciones en el espacio de trabajo realizadas en el cuarto trimestre de 2024

Clave: de "pregunta única" a "asistente persistente con memoria y contexto entre sesiones".

1T 2025 Evolución y trayectorias futuras

Tendencia 1: Predominio de la Mezcla de ExpertosTodos losmodelos 2025 de primer nivel utilizan la Mezcla de Expertos(activan parámetros de subconjunto por consulta):

  • Reducción de los costes de inferencia en un 40-60%.
  • Mejor latencia manteniendo la calidad
  • DeepSeek, GPT-4, Gemini Ultra todos basados en MoE

Tendencia 2: Multimodalidad Multimodalidad nativaGemini2.0 es multimodalidad nativa (no módulos pegados por separado):

  • Comprensión simultánea de texto+imágenes+audio+vídeo
  • Razonamiento multimodal: "comparar foto de edificio de estilo arquitectónico con descripción textual periodo histórico".

Tendencia 3: computación en tiempo de prueba (modelos de razonamiento)OpenAI o1, DeepSeek-R1: utilizan más tiempo de procesamiento para el razonamiento complejo:

  • o1: 30-60s por problema matemático complejo vs. 2s GPT-4o
  • Precisión AIME 2024: 83,3% frente a 13,4% GPT-4o
  • Compromiso explícito entre latencia y precisión

Tendencia 4: Agentic WorkflowsModelContext Protocol (MCP) Anthropic, noviembre de 2024:

  • Norma abierta para que los agentes de IA interactúen con herramientas/bases de datos
  • Más de 50 socios adoptivos en los 3 primeros meses
  • Permite a los agentes crear interacciones cruzadas persistentes 'memoria

Costes y guerra de precios

Precios de la API para 1M de fichas (entrada):

  • GPT-4o: 2,50 $.
  • Soneto 4 de Claude: $3.00
  • Gemini 2.0 Flash: 0,075 $ (33 veces más barato)
  • DeepSeek-V3: 0,27 $ (código abierto, costes de alojamiento)

Estudio de caso de Gemini Flash: el resumen de IA de una startup reduce los costes en un 94% al pasar de GPT-4o: misma calidad, latencia comparable.

La comoditización se acelera: costes de inferencia -70% interanual 2023-2024 (datos de Epoch AI).

Implicaciones estratégicas para las empresas

Marco de decisión: ¿qué modelo elegir?

Escenario 1: Empresa de seguridad crítica→Claude Sonnet 4

  • Sanidad, justicia y finanzas: los errores cuestan millones
  • La IA constitucional reduce los riesgos de responsabilidad
  • El precio de la prima se justifica por la reducción del riesgo

Escenario 2: Gran volumen, sensible a los costes→Gemini Flash o DeepSeek

  • Chatbots de atención al cliente, moderación de contenidos, clasificación
  • Rendimiento "suficientemente bueno", volumen 10x-100x
  • Coste diferenciador principal

Escenario 3: Ecosistema Lock-In→Gemini para Google Workspace, GPT para Microsoft.

  • Ya se ha invertido en el ecosistema
  • Integración nativa > rendimiento marginal superior
  • Costes de formación de los empleados en la plataforma existente

Escenario 4: Personalización/Control→Llama 3.1 o DeepSeek abierto

  • Requisitos específicos de conformidad (residencia de datos, auditoría)
  • Gran ajuste de los datos confidenciales
  • Autoalojamiento económico por volumen

Conclusión: de la guerra tecnológica a la guerra de plataformas

La competición del LLM de 2025 ya no es "qué modelo razona mejor", sino "qué ecosistema captura más valor". OpenAI domina la marca de consumo, Google aprovecha la distribución de miles de millones de usuarios, Anthropic gana la empresa consciente de la seguridad, Meta mercantiliza la infraestructura.

Predicción 2026-2027:

  • Mayor convergencia del rendimiento de los núcleos (~90% MMLU en todos los top-5)
  • Diferenciación en: velocidad, coste, integraciones, especialización vertical
  • Los agentes autónomos multietapa se convierten en la corriente dominante (33% de trabajadores del conocimiento)
  • El código abierto cierra la brecha de la calidad y mantiene la ventaja del coste y la personalización

¿Ganador final? Probablemente no sea un único actor, sino ecosistemas complementarios que sirvan a diferentes grupos de casos de uso. Como ocurre con los sistemas operativos de los teléfonos inteligentes (iOS y Android coexisten), no es "el ganador se lo lleva todo", sino "el ganador se lleva su segmento".

Para las empresas: la estrategia multimodelo se convierte en estándar: GPT para tareas genéricas, Claude para razonamientos de alto riesgo, Gemini Flash para volumen, Llama personalizada para propietarias.

2025 no es el año del "mejor modelo", sino de la orquestación inteligente entre modelos complementarios.

Fuentes:

  • Informe Stanford AI Index 2025
  • Tarjeta Modelo Antrópico Claude Soneto 4.5
  • Informe técnico OpenAI GPT-4o
  • Tarjeta de sistema Google DeepMind Gemini 2.0
  • Documento técnico de DeepSeek-V3 (arXiv)
  • Epoch AI - Tendencias en aprendizaje automático
  • Cumbre de Gartner sobre Inteligencia Artificial y Análisis 2025
  • Informe McKinsey sobre el estado de la IA en 2025
  • Encuesta del Pew Research Center sobre la adopción de la IA
  • Plataforma Similarweb Inteligencia

Recursos para el crecimiento empresarial

9 de noviembre de 2025

Sistema de refrigeración Google DeepMind AI: cómo la inteligencia artificial revoluciona la eficiencia energética de los centros de datos

Google DeepMind consigue un -40% de energía de refrigeración en centros de datos (pero solo un -4% de consumo total, ya que la refrigeración es el 10% del total) y una precisión del 99,6% con un error del 0,4% en PUE 1,1 mediante aprendizaje profundo de 5 capas, 50 nodos, 19 variables de entrada en 184.435 muestras de entrenamiento (2 años de datos). Confirmado en 3 instalaciones: Singapur (primer despliegue en 2016), Eemshaven, Council Bluffs (inversión de 5.000 millones de dólares). PUE Google en toda la flota: 1,09 frente a la media del sector: 1,56-1,58. El control predictivo por modelos predice la temperatura/presión de la hora siguiente gestionando simultáneamente las cargas de TI, la meteorología y el estado de los equipos. Seguridad garantizada: verificación en dos niveles, los operadores siempre pueden desactivar la IA. Limitaciones críticas: ninguna verificación independiente de empresas de auditoría/laboratorios nacionales, cada centro de datos requiere un modelo personalizado (8 años sin comercializarse). La implantación, de 6 a 18 meses, requiere un equipo multidisciplinar (ciencia de datos, climatización, gestión de instalaciones). Aplicable más allá de los centros de datos: plantas industriales, hospitales, centros comerciales, oficinas corporativas. 2024-2025: Google pasa a la refrigeración líquida directa para TPU v5p, lo que indica los límites prácticos Optimización de IA.