Newsletter

La ilusión del razonamiento: el debate que sacude el mundo de la IA

Apple publica dos artículos devastadores -'GSM-Symbolic' (octubre de 2024) y 'The Illusion of Thinking' (junio de 2025)- que demuestran cómo LLM falla en pequeñas variaciones de problemas clásicos (Torre de Hanoi, cruce de ríos): 'el rendimiento disminuye cuando sólo se alteran los valores numéricos'. Cero éxito en la compleja Torre de Hanoi. Pero Alex Lawsen (Open Philanthropy) replica con "The Illusion of Thinking" (La ilusión de pensar) demostrando una metodología fallida: los fallos fueron los límites de salida de los tokens no el colapso del razonamiento, los scripts automáticos clasificaron erróneamente salidas correctas parciales, algunos puzzles eran matemáticamente irresolubles. Repitiendo las pruebas con funciones recursivas en lugar de enumerar los movimientos, Claude/Gemini/GPT resolvieron la Torre de Hanoi 15 veces. Gary Marcus hace suya la tesis de Apple sobre el "cambio de distribución", pero el documento sobre el momento previo a la WWDC plantea cuestiones estratégicas. Implicaciones empresariales: ¿hasta qué punto confiar en la IA para tareas críticas? Solución: enfoques neurosimbólicos redes neuronales para reconocimiento de patrones+lenguaje, sistemas simbólicos para lógica formal. Ejemplo: La IA contable entiende "¿cuántos gastos de viaje?", pero SQL/cálculos/auditorías fiscales = código determinista.
Fabio Lauria
Consejero Delegado y Fundador de Electe‍
Cuando el razonamiento de la IA se encuentra con la realidad: el robot aplica correctamente la regla lógica pero identifica la pelota de baloncesto como una naranja. Una metáfora perfecta de cómo los LLM pueden simular procesos lógicos sin poseer una verdadera comprensión.

En los últimos meses, la comunidad de la inteligencia artificial se ha sumido en un acalorado debate provocado por dos influyentes trabajos de investigación publicados por Apple. El primero, GSM-Symbolic (octubre de 2024), y el segundo, La ilusión de pensar (junio de 2025), ponían en tela de juicio la supuesta capacidad de razonamiento de los grandes modelos lingüísticos, provocando reacciones encontradas en todo el sector.

Como ya analizamos en nuestro anterior artículo sobre "La ilusión del progreso: simular la inteligencia artificial general sin conseguirlala cuestión del razonamiento artificial toca el corazón mismo de lo que consideramos inteligencia en las máquinas.

Lo que dicen los estudios de Apple

Los investigadores de Apple llevaron a cabo un análisis sistemático de los modelos de razonamiento de gran tamaño (LRM), es decir, aquellos modelos que generan trazas detalladas de razonamiento antes de proporcionar una respuesta. Los resultados fueron sorprendentes y, para muchos, alarmantes.

Pruebas realizadas

El estudio sometió los modelos más avanzados a rompecabezas algorítmicos clásicos como:

  • Torre de Hanoi: un rompecabezas matemático resuelto por primera vez en 1957
  • Problemas de cruce de ríos: rompecabezas lógicos con restricciones específicas
  • GSM-Symbolic Benchmark: Variaciones de problemas matemáticos de nivel elemental

Prueba de razonamiento con rompecabezas clásicos: el problema del granjero, el lobo, la cabra y la col es uno de los rompecabezas lógicos utilizados en los estudios de Apple para evaluar la capacidad de razonamiento de los LLM. La dificultad radica en encontrar la secuencia correcta de cruces evitando al mismo tiempo que el lobo se coma a la cabra o que la cabra se coma la col cuando se la deja sola. Una prueba sencilla pero eficaz para distinguir entre comprensión algorítmica y memorización de patrones.

Resultados controvertidos

Los resultados mostraron que incluso pequeños cambios en la formulación del problema provocan variaciones significativas en el rendimiento, lo que sugiere una preocupante fragilidad en el razonamiento. Como se informó en cobertura de AppleInsider"el rendimiento de todos los modelos disminuye cuando sólo se alteran los valores numéricos en las preguntas de referencia GSM-Symbolic".

La contraofensiva: la ilusión de pensar

La respuesta de la comunidad de la IA no se hizo esperar. Alex Lawsen, de Open Philanthropy, en colaboración con Claude Opus, de Anthropic, publicó una refutación detallada titulada "La ilusión de pensarrebatiendo las metodologías y conclusiones del estudio de Apple.

Principales objeciones

  1. Límites de salida ignorados: muchos fallos atribuidos al "colapso del razonamiento" se debían en realidad a los límites de los tokens de salida del modelo
  2. Evaluación incorrecta: las secuencias de comandos automáticas también clasificaron los resultados parciales pero algorítmicamente correctos como fallos totales.
  3. Problemas imposibles: algunos rompecabezas eran matemáticamente irresolubles, pero los modelos eran penalizados por no resolverlos.

Pruebas de confirmación

Cuando Lawsen repitió las pruebas con metodologías alternativas -pidiendo a los modelos que generaran funciones recursivas en lugar de enumerar todos los movimientos- los resultados fueron radicalmente distintos. Modelos como Claude, Gemini y GPT resolvieron correctamente problemas de la Torre de Hanói con 15 registros, muy por encima de la complejidad en la que Apple informó de cero aciertos.

Voces autorizadas en el debate

Gary Marcus: el crítico histórico

Gary Marcuscrítico durante mucho tiempo de la capacidad de razonamiento de los LLM, acogió los hallazgos de Apple como una confirmación de su tesis de 20 años. Según Marcus, los LLM siguen teniendo problemas con el "cambio de distribución" -la capacidad de generalizar más allá de los datos de entrenamiento-, al tiempo que siguen siendo "buenos solucionadores de problemas que ya han sido resueltos".

Comunidad LocalLlama

El debate también se ha extendido a comunidades especializadas como LocalLlama en Redditdonde desarrolladores e investigadores debaten sobre las implicaciones prácticas de los modelos de código abierto y la implantación local.

Más allá de la polémica: qué significa para las empresas

Implicaciones estratégicas

Este debate no es puramente académico. Tiene implicaciones directas para:

  • Despliegue de la IA en la producción: ¿Hasta qué punto podemos confiar en los modelos para tareas críticas?
  • Inversiones en I+D: ¿dónde concentrar los recursos para el próximo gran avance?
  • Comunicación con las partes interesadas: ¿Cómo gestionar expectativas realistas sobre las capacidades de la IA?

La vía neurosimbólica

Como se destaca en varias reflexiones técnicascada vez son más necesarios planteamientos híbridos que combinen:

  • Redes neuronales para el reconocimiento de patrones y la comprensión del lenguaje
  • Sistemas simbólicos de razonamiento algorítmico y lógica formal

Ejemplo trivial: un asistente de IA que ayuda con la contabilidad. El modelo lingüístico entiende cuando preguntas "¿cuánto me he gastado en viajes este mes?" y extrae los parámetros pertinentes (categoría: viajes, periodo: este mes). ¿Pero la consulta SQL que consulta la base de datos, calcula la suma y comprueba las restricciones fiscales? Eso lo hace el código determinista, no el modelo neuronal.

Calendario y contexto estratégico

A los observadores no se les pasó por alto que el documento de Apple se publicó poco antes de la WWDC, lo que suscita dudas sobre las motivaciones estratégicas. Según elanálisis de 9to5Macel momento en que se publicó el artículo de Apple, justo antes de la WWDC, suscitó algunas dudas. ¿Se trataba de un hito en la investigación o de un movimiento estratégico para reposicionar a Apple en el panorama más amplio de la IA?".

Lecciones para el futuro

Para investigadores

  • Diseño experimental: la importancia de distinguir entre limitaciones arquitectónicas y restricciones de aplicación
  • Evaluación rigurosa: necesidad de referencias sofisticadas que separen las capacidades cognitivas de las limitaciones prácticas.
  • Transparencia metodológica: obligación de documentar exhaustivamente los montajes experimentales y sus limitaciones

Para empresas

  • Expectativas realistas: reconocer los límites actuales sin renunciar al potencial futuro
  • Enfoques híbridos: invertir en soluciones que combinen los puntos fuertes de distintas tecnologías.
  • Evaluación continua: Implantar sistemas de pruebas que reflejen escenarios de uso reales.

Conclusiones: Navegar por la incertidumbre

El debate suscitado por los documentos de Apple nos recuerda que aún estamos en las primeras fases de comprensión de la inteligencia artificial. Como señalábamos en nuestro artículo anteriorla distinción entre simulación y razonamiento auténtico sigue siendo uno de los retos más complejos de nuestro tiempo.

La verdadera lección no es si los LLM pueden o no "razonar" en el sentido humano del término, sino cómo podemos construir sistemas que exploten sus puntos fuertes al tiempo que compensan sus limitaciones. En un mundo en el que la IA ya está transformando sectores enteros, la cuestión ya no es si estas herramientas son "inteligentes", sino cómo utilizarlas de forma eficaz y responsable.

El futuro de la IA empresarial probablemente no radique en un único enfoque revolucionario, sino en la orquestación inteligente de varias tecnologías complementarias. Y en este escenario, la capacidad de evaluar de forma crítica y honesta las capacidades de nuestras herramientas se convierte en una ventaja competitiva en sí misma.

Para obtener información sobre la estrategia de IA de su organización y la implantación de soluciones sólidas, nuestro equipo de expertos está a su disposición para consultas personalizadas.

Fuentes y referencias:

Recursos para el crecimiento empresarial

9 de noviembre de 2025

Sistema de refrigeración Google DeepMind AI: cómo la inteligencia artificial revoluciona la eficiencia energética de los centros de datos

Google DeepMind consigue un -40% de energía de refrigeración en centros de datos (pero solo un -4% de consumo total, ya que la refrigeración es el 10% del total) y una precisión del 99,6% con un error del 0,4% en PUE 1,1 mediante aprendizaje profundo de 5 capas, 50 nodos, 19 variables de entrada en 184.435 muestras de entrenamiento (2 años de datos). Confirmado en 3 instalaciones: Singapur (primer despliegue en 2016), Eemshaven, Council Bluffs (inversión de 5.000 millones de dólares). PUE Google en toda la flota: 1,09 frente a la media del sector: 1,56-1,58. El control predictivo por modelos predice la temperatura/presión de la hora siguiente gestionando simultáneamente las cargas de TI, la meteorología y el estado de los equipos. Seguridad garantizada: verificación en dos niveles, los operadores siempre pueden desactivar la IA. Limitaciones críticas: ninguna verificación independiente de empresas de auditoría/laboratorios nacionales, cada centro de datos requiere un modelo personalizado (8 años sin comercializarse). La implantación, de 6 a 18 meses, requiere un equipo multidisciplinar (ciencia de datos, climatización, gestión de instalaciones). Aplicable más allá de los centros de datos: plantas industriales, hospitales, centros comerciales, oficinas corporativas. 2024-2025: Google pasa a la refrigeración líquida directa para TPU v5p, lo que indica los límites prácticos Optimización de IA.