


En los últimos meses, la comunidad de la inteligencia artificial se ha sumido en un acalorado debate provocado por dos influyentes trabajos de investigación publicados por Apple. El primero, GSM-Symbolic (octubre de 2024), y el segundo, La ilusión de pensar (junio de 2025), ponían en tela de juicio la supuesta capacidad de razonamiento de los grandes modelos lingüísticos, provocando reacciones encontradas en todo el sector.
Como ya analizamos en nuestro anterior artículo sobre "La ilusión del progreso: simular la inteligencia artificial general sin conseguirlala cuestión del razonamiento artificial toca el corazón mismo de lo que consideramos inteligencia en las máquinas.
Los investigadores de Apple llevaron a cabo un análisis sistemático de los modelos de razonamiento de gran tamaño (LRM), es decir, aquellos modelos que generan trazas detalladas de razonamiento antes de proporcionar una respuesta. Los resultados fueron sorprendentes y, para muchos, alarmantes.
El estudio sometió los modelos más avanzados a rompecabezas algorítmicos clásicos como:

Los resultados mostraron que incluso pequeños cambios en la formulación del problema provocan variaciones significativas en el rendimiento, lo que sugiere una preocupante fragilidad en el razonamiento. Como se informó en cobertura de AppleInsider"el rendimiento de todos los modelos disminuye cuando sólo se alteran los valores numéricos en las preguntas de referencia GSM-Symbolic".
La respuesta de la comunidad de la IA no se hizo esperar. Alex Lawsen, de Open Philanthropy, en colaboración con Claude Opus, de Anthropic, publicó una refutación detallada titulada "La ilusión de pensarrebatiendo las metodologías y conclusiones del estudio de Apple.
Cuando Lawsen repitió las pruebas con metodologías alternativas -pidiendo a los modelos que generaran funciones recursivas en lugar de enumerar todos los movimientos- los resultados fueron radicalmente distintos. Modelos como Claude, Gemini y GPT resolvieron correctamente problemas de la Torre de Hanói con 15 registros, muy por encima de la complejidad en la que Apple informó de cero aciertos.
Gary Marcuscrítico durante mucho tiempo de la capacidad de razonamiento de los LLM, acogió los hallazgos de Apple como una confirmación de su tesis de 20 años. Según Marcus, los LLM siguen teniendo problemas con el "cambio de distribución" -la capacidad de generalizar más allá de los datos de entrenamiento-, al tiempo que siguen siendo "buenos solucionadores de problemas que ya han sido resueltos".
El debate también se ha extendido a comunidades especializadas como LocalLlama en Redditdonde desarrolladores e investigadores debaten sobre las implicaciones prácticas de los modelos de código abierto y la implantación local.
Este debate no es puramente académico. Tiene implicaciones directas para:
Como se destaca en varias reflexiones técnicascada vez son más necesarios planteamientos híbridos que combinen:
Ejemplo trivial: un asistente de IA que ayuda con la contabilidad. El modelo lingüístico entiende cuando preguntas "¿cuánto me he gastado en viajes este mes?" y extrae los parámetros pertinentes (categoría: viajes, periodo: este mes). ¿Pero la consulta SQL que consulta la base de datos, calcula la suma y comprueba las restricciones fiscales? Eso lo hace el código determinista, no el modelo neuronal.
A los observadores no se les pasó por alto que el documento de Apple se publicó poco antes de la WWDC, lo que suscita dudas sobre las motivaciones estratégicas. Según elanálisis de 9to5Macel momento en que se publicó el artículo de Apple, justo antes de la WWDC, suscitó algunas dudas. ¿Se trataba de un hito en la investigación o de un movimiento estratégico para reposicionar a Apple en el panorama más amplio de la IA?".
El debate suscitado por los documentos de Apple nos recuerda que aún estamos en las primeras fases de comprensión de la inteligencia artificial. Como señalábamos en nuestro artículo anteriorla distinción entre simulación y razonamiento auténtico sigue siendo uno de los retos más complejos de nuestro tiempo.
La verdadera lección no es si los LLM pueden o no "razonar" en el sentido humano del término, sino cómo podemos construir sistemas que exploten sus puntos fuertes al tiempo que compensan sus limitaciones. En un mundo en el que la IA ya está transformando sectores enteros, la cuestión ya no es si estas herramientas son "inteligentes", sino cómo utilizarlas de forma eficaz y responsable.
El futuro de la IA empresarial probablemente no radique en un único enfoque revolucionario, sino en la orquestación inteligente de varias tecnologías complementarias. Y en este escenario, la capacidad de evaluar de forma crítica y honesta las capacidades de nuestras herramientas se convierte en una ventaja competitiva en sí misma.
Para obtener información sobre la estrategia de IA de su organización y la implantación de soluciones sólidas, nuestro equipo de expertos está a su disposición para consultas personalizadas.