Newsletter

La ilusión del razonamiento: el debate que sacude el mundo de la IA

Apple publica dos artículos devastadores -'GSM-Symbolic' (octubre de 2024) y 'The Illusion of Thinking' (junio de 2025)- que demuestran cómo LLM falla en pequeñas variaciones de problemas clásicos (Torre de Hanoi, cruce de ríos): 'el rendimiento disminuye cuando sólo se alteran los valores numéricos'. Cero éxito en la compleja Torre de Hanoi. Pero Alex Lawsen (Open Philanthropy) replica con "The Illusion of Thinking" (La ilusión de pensar) demostrando una metodología fallida: los fallos fueron los límites de salida de los tokens no el colapso del razonamiento, los scripts automáticos clasificaron erróneamente salidas correctas parciales, algunos puzzles eran matemáticamente irresolubles. Repitiendo las pruebas con funciones recursivas en lugar de enumerar los movimientos, Claude/Gemini/GPT resolvieron la Torre de Hanoi 15 veces. Gary Marcus hace suya la tesis de Apple sobre el "cambio de distribución", pero el documento sobre el momento previo a la WWDC plantea cuestiones estratégicas. Implicaciones empresariales: ¿hasta qué punto confiar en la IA para tareas críticas? Solución: enfoques neurosimbólicos redes neuronales para reconocimiento de patrones+lenguaje, sistemas simbólicos para lógica formal. Ejemplo: La IA contable entiende "¿cuántos gastos de viaje?", pero SQL/cálculos/auditorías fiscales = código determinista.
Cuando el razonamiento de la IA se encuentra con la realidad: el robot aplica correctamente la regla lógica pero identifica la pelota de baloncesto como una naranja. Una metáfora perfecta de cómo los LLM pueden simular procesos lógicos sin poseer una verdadera comprensión.

En los últimos meses, la comunidad de la inteligencia artificial se ha visto sacudida por un acalorado debate desencadenado por dos influyentes trabajos de investigación publicados por apple. El primero, " La ilusión de pensar" ( illusion-of-thinking-the-debate-that-is-shaking-the-world-of-ai&_bhlid=a540c17e5de7c2723906dabd9b8f31cdf0c5bf18" target="_blank" id="">"GSM-Symbolic" (octubre de 2024), y el segundo, "La ilusión de pensar" (junio de 2025), cuestionaban la supuesta capacidad de razonamiento de los grandes modelos lingüísticos, provocando reacciones encontradas en todo el sector.

Como ya analizamos en nuestro anterior artículo sobre «La ilusión del progreso: simular la inteligencia artificial general sin alcanzarla», la cuestión del razonamiento artificial toca el núcleo mismo de lo que consideramos inteligencia en las máquinas.

Lo que dicen los estudios de Apple

Los investigadores de Apple llevaron a cabo un análisis sistemático de los modelos de razonamiento de gran tamaño (LRM), es decir, aquellos modelos que generan trazas detalladas de razonamiento antes de proporcionar una respuesta. Los resultados fueron sorprendentes y, para muchos, alarmantes.

Pruebas realizadas

El estudio sometió los modelos más avanzados a rompecabezas algorítmicos clásicos como:

  • Torre de Hanoi: un rompecabezas matemático resuelto por primera vez en 1957
  • Problemas de cruce de ríos: rompecabezas lógicos con restricciones específicas
  • GSM-Symbolic Benchmark: Variaciones de problemas matemáticos de nivel elemental

Poner a prueba el razonamiento con acertijos clásicos: el problema del granjero, el lobo, la cabra y la col es uno de los rompecabezas lógicos utilizados en los estudios de Apple para evaluar las capacidades de razonamiento de los LLM. La dificultad radica en encontrar la secuencia correcta de cruces evitando que el lobo se coma a la cabra o que la cabra se coma la col cuando se quedan solos. Una prueba sencilla pero eficaz para distinguir entre la comprensión algorítmica y la memorización de patrones.

Resultados controvertidos

Los resultados mostraron que incluso pequeños cambios en la formulación del problema provocan variaciones significativas en el rendimiento, lo que sugiere una preocupante fragilidad en el razonamiento. Como se informó en cobertura de AppleInsider"el rendimiento de todos los modelos disminuye cuando sólo se alteran los valores numéricos en las preguntas de referencia GSM-Symbolic".

La contraofensiva: la ilusión de pensar

La respuesta de la comunidad de la IA no se hizo esperar. Alex Lawsen, de Open Philanthropy, en colaboración con Claude Opus, de Anthropic, publicó una refutación detallada titulada "La ilusión de pensarrebatiendo las metodologías y conclusiones del estudio de Apple.

Principales objeciones

  1. Límites de salida ignorados: muchos fallos atribuidos al "colapso del razonamiento" se debían en realidad a los límites de los tokens de salida del modelo
  2. Evaluación incorrecta: las secuencias de comandos automáticas también clasificaron los resultados parciales pero algorítmicamente correctos como fallos totales.
  3. Problemas imposibles: algunos rompecabezas eran matemáticamente irresolubles, pero los modelos eran penalizados por no resolverlos.

Pruebas de confirmación

Cuando Lawsen repitió las pruebas con metodologías alternativas -pidiendo a los modelos que generaran funciones recursivas en lugar de enumerar todos los movimientos- los resultados fueron radicalmente distintos. Modelos como Claude, gemini y GPT resolvieron correctamente problemas de la Torre de Hanoi con 15 registros, muy por encima de la complejidad en la que Apple informó de cero aciertos.

Voces autorizadas en el debate

Gary Marcus: el crítico histórico

Gary Marcuscrítico durante mucho tiempo de la capacidad de razonamiento de los LLM, acogió los hallazgos de Apple como una confirmación de su tesis de 20 años. Según Marcus, los LLM siguen teniendo problemas con el "cambio de distribución" -la capacidad de generalizar más allá de los datos de entrenamiento-, al tiempo que siguen siendo "buenos solucionadores de problemas que ya han sido resueltos".

Comunidad LocalLlama

El debate también se ha extendido a comunidades especializadas como LocalLlama en Redditdonde desarrolladores e investigadores debaten sobre las implicaciones prácticas de los modelos de código abierto y la implantación local.

Más allá de la polémica: qué significa para las empresas

Implicaciones estratégicas

Este debate no es puramente académico. Tiene implicaciones directas para:

  • Despliegue de la IA en la producción: ¿Hasta qué punto podemos confiar en los modelos para tareas críticas?
  • Inversiones en I+D: ¿dónde concentrar los recursos para el próximo gran avance?
  • Comunicación con las partes interesadas: ¿Cómo gestionar expectativas realistas sobre las capacidades de la IA?

La vía neurosimbólica

Como se destaca en varias reflexiones técnicascada vez son más necesarios planteamientos híbridos que combinen:

  • Redes neuronales para el reconocimiento de patrones y la comprensión del lenguaje
  • Sistemas simbólicos de razonamiento algorítmico y lógica formal

Ejemplo trivial: un asistente de IA que ayuda con la contabilidad. El modelo lingüístico entiende cuando preguntas "¿cuánto me he gastado en viajes este mes?" y extrae los parámetros pertinentes (categoría: viajes, periodo: este mes). ¿Pero la consulta SQL que consulta la base de datos, calcula la suma y comprueba las restricciones fiscales? Eso lo hace el código determinista, no el modelo neuronal.

Calendario y contexto estratégico

A los observadores no se les pasó por alto que el documento de Apple se publicó poco antes de la WWDC, lo que suscita dudas sobre las motivaciones estratégicas. Según elanálisis de 9to5Macel momento en que se publicó el artículo de Apple, justo antes de la WWDC, suscitó algunas dudas. ¿Se trataba de un hito en la investigación o de un movimiento estratégico para reposicionar a Apple en el panorama más amplio de la IA?".

Lecciones para el futuro

Para investigadores

  • Diseño experimental: la importancia de distinguir entre limitaciones arquitectónicas y restricciones de aplicación
  • Evaluación rigurosa: necesidad de referencias sofisticadas que separen las capacidades cognitivas de las limitaciones prácticas.
  • Transparencia metodológica: obligación de documentar exhaustivamente los montajes experimentales y sus limitaciones

Para empresas

  • Expectativas realistas: reconocer los límites actuales sin renunciar al potencial futuro
  • Enfoques híbridos: invertir en soluciones que combinen los puntos fuertes de distintas tecnologías.
  • Evaluación continua: Implantar sistemas de pruebas que reflejen escenarios de uso reales.

Conclusiones: Navegar por la incertidumbre

El debate suscitado por los documentos de Apple nos recuerda que aún estamos en las primeras fases de comprensión de la inteligencia artificial. Como señalábamos en nuestro artículo anteriorla distinción entre simulación y razonamiento auténtico sigue siendo uno de los retos más complejos de nuestro tiempo.

La verdadera lección no es si los LLM pueden o no "razonar" en el sentido humano del término, sino cómo podemos construir sistemas que exploten sus puntos fuertes al tiempo que compensan sus limitaciones. En un mundo en el que la IA ya está transformando sectores enteros, la cuestión ya no es si estas herramientas son "inteligentes", sino cómo utilizarlas de forma eficaz y responsable.

El futuro de la IA empresarial probablemente no radique en un único enfoque revolucionario, sino en la orquestación inteligente de varias tecnologías complementarias. Y en este escenario, la capacidad de evaluar de forma crítica y honesta las capacidades de nuestras herramientas se convierte en una ventaja competitiva en sí misma.

Últimos avances (enero de 2026)

OpenAI lanza o3 y o4-mini: El 16 de abril de 2025, OpenAI lanzó públicamente o3 y o4-mini, los modelos de razonamiento más avanzados de la serie o. Estos modelos ahora pueden utilizar herramientas de forma autónoma, combinando búsqueda web, análisis de archivos, razonamiento visual y generación de imágenes. o3 ha establecido nuevos récords en benchmarks como Codeforces, SWE-bench y MMMU, mientras que o4-mini optimiza el rendimiento y los costes para tareas de razonamiento de gran volumen. Los modelos demuestran su capacidad de «pensar con imágenes», transformando visualmente el contenido para un análisis más profundo.

DeepSeek-R1 revoluciona la industria de la IA: en enero de 2025, DeepSeek lanzó R1, un modelo de razonamiento de código abierto que alcanzó un rendimiento comparable al de OpenAI o1 con un coste de entrenamiento de solo 6 millones de dólares (frente a los cientos de millones de los modelos occidentales). DeepSeek-R1 demuestra que las capacidades de razonamiento pueden fomentarse mediante el aprendizaje por refuerzo puro, sin necesidad de demostraciones humanas anotadas. El modelo se convirtió en la aplicación gratuita n.º 1 en la App Store y Google Play en decenas de países. En enero de 2026, DeepSeek publicó un extenso artículo de 60 páginas en el que revela los secretos del entrenamiento y admite con franqueza que técnicas como la búsqueda en árbol de Monte Carlo (MCTS) no han funcionado para el razonamiento general.

Anthropic actualiza la «Constitución» de Claude: El 22 de enero de 2026, Anthropic publicó una nueva constitución de 23 000 palabras para Claude, pasando de un enfoque basado en reglas a uno basado en la comprensión de los principios éticos. El documento se convierte en el primer marco de una gran empresa de IA que reconoce formalmente la posibilidad de la conciencia o el estatus moral de la IA, afirmando que Anthropic se preocupa por el «bienestar psicológico, el sentido de identidad y el bienestar» de Claude.

El debate se intensifica: un estudio realizado en julio de 2025 replicó y perfeccionó los parámetros de referencia de Apple, confirmando que los LRM siguen mostrando limitaciones cognitivas cuando la complejidad aumenta moderadamente (alrededor de 8 discos en la Torre de Hanoi). Los investigadores demostraron que esto no solo depende de las limitaciones de rendimiento, sino también de limitaciones cognitivas reales, lo que pone de manifiesto que el debate está lejos de haber concluido.

Para obtener información sobre la estrategia de IA de su organización y la implantación de soluciones sólidas, nuestro equipo de expertos está a su disposición para consultas personalizadas.

Fuentes y referencias:

Recursos para el crecimiento empresarial

9 de noviembre de 2025

Sistema de refrigeración Google DeepMind AI: cómo la inteligencia artificial revoluciona la eficiencia energética de los centros de datos

Google DeepMind consigue un -40% de energía de refrigeración en centros de datos (pero solo un -4% de consumo total, ya que la refrigeración es el 10% del total) y una precisión del 99,6% con un error del 0,4% en PUE 1,1 mediante aprendizaje profundo de 5 capas, 50 nodos, 19 variables de entrada en 184.435 muestras de entrenamiento (2 años de datos). Confirmado en 3 instalaciones: Singapur (primer despliegue en 2016), Eemshaven, Council Bluffs (inversión de 5.000 millones de dólares). PUE Google en toda la flota: 1,09 frente a la media del sector: 1,56-1,58. El control predictivo por modelos predice la temperatura/presión de la hora siguiente gestionando simultáneamente las cargas de TI, la meteorología y el estado de los equipos. Seguridad garantizada: verificación en dos niveles, los operadores siempre pueden desactivar la IA. Limitaciones críticas: ninguna verificación independiente de empresas de auditoría/laboratorios nacionales, cada centro de datos requiere un modelo personalizado (8 años sin comercializarse). La implantación, de 6 a 18 meses, requiere un equipo multidisciplinar (ciencia de datos, climatización, gestión de instalaciones). Aplicable más allá de los centros de datos: plantas industriales, hospitales, centros comerciales, oficinas corporativas. 2024-2025: Google pasa a la refrigeración líquida directa para TPU v5p, lo que indica los límites prácticos Optimización de IA.