La ilusión del razonamiento: el debate que sacude el mundo de la IA

Newsletter

La ilusión del razonamiento: el debate que sacude el mundo de la IA

Apple publica dos artículos devastadores -'GSM-Symbolic' (octubre de 2024) y 'The Illusion of Thinking' (junio de 2025)- que demuestran cómo LLM falla en pequeñas variaciones de problemas clásicos (Torre de Hanoi, cruce de ríos): 'el rendimiento disminuye cuando sólo se alteran los valores numéricos'. Cero éxito en la compleja Torre de Hanoi. Pero Alex Lawsen (Open Philanthropy) replica con "The Illusion of Thinking" (La ilusión de pensar) demostrando una metodología fallida: los fallos fueron los límites de salida de los tokens no el colapso del razonamiento, los scripts automáticos clasificaron erróneamente salidas correctas parciales, algunos puzzles eran matemáticamente irresolubles. Repitiendo las pruebas con funciones recursivas en lugar de enumerar los movimientos, Claude/Gemini/GPT resolvieron la Torre de Hanoi 15 veces. Gary Marcus hace suya la tesis de Apple sobre el "cambio de distribución", pero el documento sobre el momento previo a la WWDC plantea cuestiones estratégicas. Implicaciones empresariales: ¿hasta qué punto confiar en la IA para tareas críticas? Solución: enfoques neurosimbólicos redes neuronales para reconocimiento de patrones+lenguaje, sistemas simbólicos para lógica formal. Ejemplo: La IA contable entiende "¿cuántos gastos de viaje?", pero SQL/cálculos/auditorías fiscales = código determinista.

Fabio Lauria

Consejero Delegado y Fundador de Electe‍

Cuando el razonamiento de la IA se encuentra con la realidad: el robot aplica correctamente la regla lógica pero identifica la pelota de baloncesto como una naranja. Una metáfora perfecta de cómo los LLM pueden simular procesos lógicos sin poseer una verdadera comprensión.

‍

En los últimos meses, la comunidad de la inteligencia artificial se ha sumido en un acalorado debate provocado por dos influyentes trabajos de investigación publicados por Apple. El primero, GSM-Symbolic (octubre de 2024), y el segundo, La ilusión de pensar (junio de 2025), ponían en tela de juicio la supuesta capacidad de razonamiento de los grandes modelos lingüísticos, provocando reacciones encontradas en todo el sector.

‍

Como ya analizamos en nuestro anterior artículo sobre "La ilusión del progreso: simular la inteligencia artificial general sin conseguirlala cuestión del razonamiento artificial toca el corazón mismo de lo que consideramos inteligencia en las máquinas.

‍

Lo que dicen los estudios de Apple

Los investigadores de Apple llevaron a cabo un análisis sistemático de los modelos de razonamiento de gran tamaño (LRM), es decir, aquellos modelos que generan trazas detalladas de razonamiento antes de proporcionar una respuesta. Los resultados fueron sorprendentes y, para muchos, alarmantes.

‍

Pruebas realizadas

El estudio sometió los modelos más avanzados a rompecabezas algorítmicos clásicos como:

Torre de Hanoi: un rompecabezas matemático resuelto por primera vez en 1957
Problemas de cruce de ríos: rompecabezas lógicos con restricciones específicas
GSM-Symbolic Benchmark: Variaciones de problemas matemáticos de nivel elemental

‍

Prueba de razonamiento con rompecabezas clásicos: el problema del granjero, el lobo, la cabra y la col es uno de los rompecabezas lógicos utilizados en los estudios de Apple para evaluar la capacidad de razonamiento de los LLM. La dificultad radica en encontrar la secuencia correcta de cruces evitando al mismo tiempo que el lobo se coma a la cabra o que la cabra se coma la col cuando se la deja sola. Una prueba sencilla pero eficaz para distinguir entre comprensión algorítmica y memorización de patrones.

‍

Resultados controvertidos

Los resultados mostraron que incluso pequeños cambios en la formulación del problema provocan variaciones significativas en el rendimiento, lo que sugiere una preocupante fragilidad en el razonamiento. Como se informó en cobertura de AppleInsider"el rendimiento de todos los modelos disminuye cuando sólo se alteran los valores numéricos en las preguntas de referencia GSM-Symbolic".

‍

La contraofensiva: la ilusión de pensar

‍

La respuesta de la comunidad de la IA no se hizo esperar. Alex Lawsen, de Open Philanthropy, en colaboración con Claude Opus, de Anthropic, publicó una refutación detallada titulada "La ilusión de pensarrebatiendo las metodologías y conclusiones del estudio de Apple.

Principales objeciones

Límites de salida ignorados: muchos fallos atribuidos al "colapso del razonamiento" se debían en realidad a los límites de los tokens de salida del modelo
Evaluación incorrecta: las secuencias de comandos automáticas también clasificaron los resultados parciales pero algorítmicamente correctos como fallos totales.
Problemas imposibles: algunos rompecabezas eran matemáticamente irresolubles, pero los modelos eran penalizados por no resolverlos.

Pruebas de confirmación

Cuando Lawsen repitió las pruebas con metodologías alternativas -pidiendo a los modelos que generaran funciones recursivas en lugar de enumerar todos los movimientos- los resultados fueron radicalmente distintos. Modelos como Claude, Gemini y GPT resolvieron correctamente problemas de la Torre de Hanói con 15 registros, muy por encima de la complejidad en la que Apple informó de cero aciertos.

‍

Voces autorizadas en el debate

‍

Gary Marcus: el crítico histórico

Gary Marcuscrítico durante mucho tiempo de la capacidad de razonamiento de los LLM, acogió los hallazgos de Apple como una confirmación de su tesis de 20 años. Según Marcus, los LLM siguen teniendo problemas con el "cambio de distribución" -la capacidad de generalizar más allá de los datos de entrenamiento-, al tiempo que siguen siendo "buenos solucionadores de problemas que ya han sido resueltos".

‍

Comunidad LocalLlama

El debate también se ha extendido a comunidades especializadas como LocalLlama en Redditdonde desarrolladores e investigadores debaten sobre las implicaciones prácticas de los modelos de código abierto y la implantación local.

‍

Más allá de la polémica: qué significa para las empresas

Implicaciones estratégicas

Este debate no es puramente académico. Tiene implicaciones directas para:

Despliegue de la IA en la producción: ¿Hasta qué punto podemos confiar en los modelos para tareas críticas?
Inversiones en I+D: ¿dónde concentrar los recursos para el próximo gran avance?
Comunicación con las partes interesadas: ¿Cómo gestionar expectativas realistas sobre las capacidades de la IA?

La vía neurosimbólica

Como se destaca en varias reflexiones técnicascada vez son más necesarios planteamientos híbridos que combinen:

Redes neuronales para el reconocimiento de patrones y la comprensión del lenguaje
Sistemas simbólicos de razonamiento algorítmico y lógica formal

Ejemplo trivial: un asistente de IA que ayuda con la contabilidad. El modelo lingüístico entiende cuando preguntas "¿cuánto me he gastado en viajes este mes?" y extrae los parámetros pertinentes (categoría: viajes, periodo: este mes). ¿Pero la consulta SQL que consulta la base de datos, calcula la suma y comprueba las restricciones fiscales? Eso lo hace el código determinista, no el modelo neuronal.

‍

Calendario y contexto estratégico

A los observadores no se les pasó por alto que el documento de Apple se publicó poco antes de la WWDC, lo que suscita dudas sobre las motivaciones estratégicas. Según elanálisis de 9to5Macel momento en que se publicó el artículo de Apple, justo antes de la WWDC, suscitó algunas dudas. ¿Se trataba de un hito en la investigación o de un movimiento estratégico para reposicionar a Apple en el panorama más amplio de la IA?".

‍

Lecciones para el futuro

Para investigadores

Diseño experimental: la importancia de distinguir entre limitaciones arquitectónicas y restricciones de aplicación
Evaluación rigurosa: necesidad de referencias sofisticadas que separen las capacidades cognitivas de las limitaciones prácticas.
Transparencia metodológica: obligación de documentar exhaustivamente los montajes experimentales y sus limitaciones

Para empresas

Expectativas realistas: reconocer los límites actuales sin renunciar al potencial futuro
Enfoques híbridos: invertir en soluciones que combinen los puntos fuertes de distintas tecnologías.
Evaluación continua: Implantar sistemas de pruebas que reflejen escenarios de uso reales.

Conclusiones: Navegar por la incertidumbre

‍

El debate suscitado por los documentos de Apple nos recuerda que aún estamos en las primeras fases de comprensión de la inteligencia artificial. Como señalábamos en nuestro artículo anteriorla distinción entre simulación y razonamiento auténtico sigue siendo uno de los retos más complejos de nuestro tiempo.

‍

La verdadera lección no es si los LLM pueden o no "razonar" en el sentido humano del término, sino cómo podemos construir sistemas que exploten sus puntos fuertes al tiempo que compensan sus limitaciones. En un mundo en el que la IA ya está transformando sectores enteros, la cuestión ya no es si estas herramientas son "inteligentes", sino cómo utilizarlas de forma eficaz y responsable.

‍

El futuro de la IA empresarial probablemente no radique en un único enfoque revolucionario, sino en la orquestación inteligente de varias tecnologías complementarias. Y en este escenario, la capacidad de evaluar de forma crítica y honesta las capacidades de nuestras herramientas se convierte en una ventaja competitiva en sí misma.

‍

Para obtener información sobre la estrategia de IA de su organización y la implantación de soluciones sólidas, nuestro equipo de expertos está a su disposición para consultas personalizadas.

‍

Fuentes y referencias:

GSM-Symbolic: Comprender las limitaciones del razonamiento matemático en grandes modelos lingüísticos - Investigación sobre aprendizaje automático en Apple
La ilusión de pensar: comprender los puntos fuertes y las limitaciones de los modelos de razonamiento - Investigación sobre aprendizaje automático de Apple
Un nuevo artículo refuta el estudio de Apple sobre el "colapso del razonamiento" de LLM - 9to5Mac
Siete respuestas al razonamiento viral de Apple - Gary Marcus
La ilusión de pensar: lo que el documento de Apple sobre IA dice sobre el razonamiento LLM - Arize AI
Un estudio de Apple demuestra que los modelos de IA basados en LLM son defectuosos - AppleInsider
La ilusión del progreso: simular la inteligencia artificial general sin conseguirla - Electe

Recursos para el crecimiento empresarial

9 de noviembre de 2025

Guía completa de software de inteligencia empresarial para PYME

El 60% de las pymes italianas admite carencias críticas en la formación de datos, el 29% ni siquiera tiene una figura dedicada, mientras que el mercado italiano de BI se dispara de 36.790 millones de dólares a 69.450 millones en 2034 (CAGR 8,56%). El problema no es la tecnología sino el enfoque: las pymes se ahogan en datos dispersos entre CRM, ERP, hojas Excel sin transformarlos en decisiones. Esto es tan cierto para las que empiezan de cero como para las que quieren optimizar. Criterios de elección que cuentan: facilidad de uso mediante arrastrar y soltar sin meses de formación, escalabilidad que crece con usted, integración nativa con los sistemas existentes, coste total de propiedad (implantación + formación + mantenimiento) frente al precio de la licencia por sí solo. Hoja de ruta en 4 pasos: objetivos SMART cuantificables (reducir la rotación un 15% en 6 meses), mapeo de fuentes de datos limpias (garbage in=garbage out), formación del equipo de cultura de datos, proyecto piloto con bucle de feedback continuo. La IA lo cambia todo: del BI descriptivo (qué ha pasado) al análisis aumentado que descubre patrones ocultos, el predictivo que estima la demanda futura, el prescriptivo que sugiere acciones concretas. Electe democratiza este poder para las PYME.

9 de noviembre de 2025

Sistema de refrigeración Google DeepMind AI: cómo la inteligencia artificial revoluciona la eficiencia energética de los centros de datos

Google DeepMind consigue un -40% de energía de refrigeración en centros de datos (pero solo un -4% de consumo total, ya que la refrigeración es el 10% del total) y una precisión del 99,6% con un error del 0,4% en PUE 1,1 mediante aprendizaje profundo de 5 capas, 50 nodos, 19 variables de entrada en 184.435 muestras de entrenamiento (2 años de datos). Confirmado en 3 instalaciones: Singapur (primer despliegue en 2016), Eemshaven, Council Bluffs (inversión de 5.000 millones de dólares). PUE Google en toda la flota: 1,09 frente a la media del sector: 1,56-1,58. El control predictivo por modelos predice la temperatura/presión de la hora siguiente gestionando simultáneamente las cargas de TI, la meteorología y el estado de los equipos. Seguridad garantizada: verificación en dos niveles, los operadores siempre pueden desactivar la IA. Limitaciones críticas: ninguna verificación independiente de empresas de auditoría/laboratorios nacionales, cada centro de datos requiere un modelo personalizado (8 años sin comercializarse). La implantación, de 6 a 18 meses, requiere un equipo multidisciplinar (ciencia de datos, climatización, gestión de instalaciones). Aplicable más allá de los centros de datos: plantas industriales, hospitales, centros comerciales, oficinas corporativas. 2024-2025: Google pasa a la refrigeración líquida directa para TPU v5p, lo que indica los límites prácticos Optimización de IA.

9 de noviembre de 2025

Sam Altman y la paradoja de la IA: "Burbuja para otros, billones para nosotros".

9 de noviembre de 2025

Por qué las matemáticas son difíciles (aunque seas una IA)

Los modelos lingüísticos no saben memorizar resultados de la misma manera que nosotros memorizamos pi, pero eso no los convierte en matemáticos. El problema es estructural: aprenden por similitud estadística, no por comprensión algorítmica. Incluso los nuevos "modelos de razonamiento" como o1 fallan en tareas triviales: cuenta correctamente la "r" de "fresa" tras segundos de procesamiento, pero se equivoca cuando tiene que escribir un párrafo en el que la segunda letra de cada frase forma una palabra. La versión premium, de 200 dólares al mes, tarda cuatro minutos en resolver lo que un niño hace al instante. DeepSeek y Mistral en 2025 siguen contando mal las letras. ¿La solución emergente? Un enfoque híbrido: los modelos más inteligentes han descubierto cuándo llamar a una calculadora real en lugar de intentar realizar el cálculo ellos mismos. Cambio de paradigma: la IA no tiene por qué saber hacerlo todo, sino orquestar las herramientas adecuadas. Paradoja final: GPT-4 puede explicarte brillantemente la teoría de límites pero se equivoca en multiplicaciones que una calculadora de bolsillo siempre resuelve correctamente. Para la educación matemática son excelentes: explican con infinita paciencia, adaptan ejemplos, desglosan razonamientos complejos. ¿Para cálculos precisos? Confía en la calculadora, no en la inteligencia artificial.