Newsletter

La ilusión del razonamiento: el debate que sacude el mundo de la IA

Apple publica dos artículos devastadores -'GSM-Symbolic' (octubre de 2024) y 'The Illusion of Thinking' (junio de 2025)- que demuestran cómo LLM falla en pequeñas variaciones de problemas clásicos (Torre de Hanoi, cruce de ríos): 'el rendimiento disminuye cuando sólo se alteran los valores numéricos'. Cero éxito en la compleja Torre de Hanoi. Pero Alex Lawsen (Open Philanthropy) replica con "The Illusion of Thinking" (La ilusión de pensar) demostrando una metodología fallida: los fallos fueron los límites de salida de los tokens no el colapso del razonamiento, los scripts automáticos clasificaron erróneamente salidas correctas parciales, algunos puzzles eran matemáticamente irresolubles. Repitiendo las pruebas con funciones recursivas en lugar de enumerar los movimientos, Claude/Gemini/GPT resolvieron la Torre de Hanoi 15 veces. Gary Marcus hace suya la tesis de Apple sobre el "cambio de distribución", pero el documento sobre el momento previo a la WWDC plantea cuestiones estratégicas. Implicaciones empresariales: ¿hasta qué punto confiar en la IA para tareas críticas? Solución: enfoques neurosimbólicos redes neuronales para reconocimiento de patrones+lenguaje, sistemas simbólicos para lógica formal. Ejemplo: La IA contable entiende "¿cuántos gastos de viaje?", pero SQL/cálculos/auditorías fiscales = código determinista.
Fabio Lauria
Consejero Delegado y Fundador de Electe‍
Cuando el razonamiento de la IA se encuentra con la realidad: el robot aplica correctamente la regla lógica pero identifica la pelota de baloncesto como una naranja. Una metáfora perfecta de cómo los LLM pueden simular procesos lógicos sin poseer una verdadera comprensión.

En los últimos meses, la comunidad de la inteligencia artificial se ha sumido en un acalorado debate provocado por dos influyentes trabajos de investigación publicados por Apple. El primero, GSM-Symbolic (octubre de 2024), y el segundo, La ilusión de pensar (junio de 2025), ponían en tela de juicio la supuesta capacidad de razonamiento de los grandes modelos lingüísticos, provocando reacciones encontradas en todo el sector.

Como ya analizamos en nuestro anterior artículo sobre "La ilusión del progreso: simular la inteligencia artificial general sin conseguirlala cuestión del razonamiento artificial toca el corazón mismo de lo que consideramos inteligencia en las máquinas.

Lo que dicen los estudios de Apple

Los investigadores de Apple llevaron a cabo un análisis sistemático de los modelos de razonamiento de gran tamaño (LRM), es decir, aquellos modelos que generan trazas detalladas de razonamiento antes de proporcionar una respuesta. Los resultados fueron sorprendentes y, para muchos, alarmantes.

Pruebas realizadas

El estudio sometió los modelos más avanzados a rompecabezas algorítmicos clásicos como:

  • Torre de Hanoi: un rompecabezas matemático resuelto por primera vez en 1957
  • Problemas de cruce de ríos: rompecabezas lógicos con restricciones específicas
  • GSM-Symbolic Benchmark: Variaciones de problemas matemáticos de nivel elemental

Prueba de razonamiento con rompecabezas clásicos: el problema del granjero, el lobo, la cabra y la col es uno de los rompecabezas lógicos utilizados en los estudios de Apple para evaluar la capacidad de razonamiento de los LLM. La dificultad radica en encontrar la secuencia correcta de cruces evitando al mismo tiempo que el lobo se coma a la cabra o que la cabra se coma la col cuando se la deja sola. Una prueba sencilla pero eficaz para distinguir entre comprensión algorítmica y memorización de patrones.

Resultados controvertidos

Los resultados mostraron que incluso pequeños cambios en la formulación del problema provocan variaciones significativas en el rendimiento, lo que sugiere una preocupante fragilidad en el razonamiento. Como se informó en cobertura de AppleInsider"el rendimiento de todos los modelos disminuye cuando sólo se alteran los valores numéricos en las preguntas de referencia GSM-Symbolic".

La contraofensiva: la ilusión de pensar

La respuesta de la comunidad de la IA no se hizo esperar. Alex Lawsen, de Open Philanthropy, en colaboración con Claude Opus, de Anthropic, publicó una refutación detallada titulada "La ilusión de pensarrebatiendo las metodologías y conclusiones del estudio de Apple.

Principales objeciones

  1. Límites de salida ignorados: muchos fallos atribuidos al "colapso del razonamiento" se debían en realidad a los límites de los tokens de salida del modelo
  2. Evaluación incorrecta: las secuencias de comandos automáticas también clasificaron los resultados parciales pero algorítmicamente correctos como fallos totales.
  3. Problemas imposibles: algunos rompecabezas eran matemáticamente irresolubles, pero los modelos eran penalizados por no resolverlos.

Pruebas de confirmación

Cuando Lawsen repitió las pruebas con metodologías alternativas -pidiendo a los modelos que generaran funciones recursivas en lugar de enumerar todos los movimientos- los resultados fueron radicalmente distintos. Modelos como Claude, Gemini y GPT resolvieron correctamente problemas de la Torre de Hanói con 15 registros, muy por encima de la complejidad en la que Apple informó de cero aciertos.

Voces autorizadas en el debate

Gary Marcus: el crítico histórico

Gary Marcuscrítico durante mucho tiempo de la capacidad de razonamiento de los LLM, acogió los hallazgos de Apple como una confirmación de su tesis de 20 años. Según Marcus, los LLM siguen teniendo problemas con el "cambio de distribución" -la capacidad de generalizar más allá de los datos de entrenamiento-, al tiempo que siguen siendo "buenos solucionadores de problemas que ya han sido resueltos".

Comunidad LocalLlama

El debate también se ha extendido a comunidades especializadas como LocalLlama en Redditdonde desarrolladores e investigadores debaten sobre las implicaciones prácticas de los modelos de código abierto y la implantación local.

Más allá de la polémica: qué significa para las empresas

Implicaciones estratégicas

Este debate no es puramente académico. Tiene implicaciones directas para:

  • Despliegue de la IA en la producción: ¿Hasta qué punto podemos confiar en los modelos para tareas críticas?
  • Inversiones en I+D: ¿dónde concentrar los recursos para el próximo gran avance?
  • Comunicación con las partes interesadas: ¿Cómo gestionar expectativas realistas sobre las capacidades de la IA?

La vía neurosimbólica

Como se destaca en varias reflexiones técnicascada vez son más necesarios planteamientos híbridos que combinen:

  • Redes neuronales para el reconocimiento de patrones y la comprensión del lenguaje
  • Sistemas simbólicos de razonamiento algorítmico y lógica formal

Ejemplo trivial: un asistente de IA que ayuda con la contabilidad. El modelo lingüístico entiende cuando preguntas "¿cuánto me he gastado en viajes este mes?" y extrae los parámetros pertinentes (categoría: viajes, periodo: este mes). ¿Pero la consulta SQL que consulta la base de datos, calcula la suma y comprueba las restricciones fiscales? Eso lo hace el código determinista, no el modelo neuronal.

Calendario y contexto estratégico

A los observadores no se les pasó por alto que el documento de Apple se publicó poco antes de la WWDC, lo que suscita dudas sobre las motivaciones estratégicas. Según elanálisis de 9to5Macel momento en que se publicó el artículo de Apple, justo antes de la WWDC, suscitó algunas dudas. ¿Se trataba de un hito en la investigación o de un movimiento estratégico para reposicionar a Apple en el panorama más amplio de la IA?".

Lecciones para el futuro

Para investigadores

  • Diseño experimental: la importancia de distinguir entre limitaciones arquitectónicas y restricciones de aplicación
  • Evaluación rigurosa: necesidad de referencias sofisticadas que separen las capacidades cognitivas de las limitaciones prácticas.
  • Transparencia metodológica: obligación de documentar exhaustivamente los montajes experimentales y sus limitaciones

Para empresas

  • Expectativas realistas: reconocer los límites actuales sin renunciar al potencial futuro
  • Enfoques híbridos: invertir en soluciones que combinen los puntos fuertes de distintas tecnologías.
  • Evaluación continua: Implantar sistemas de pruebas que reflejen escenarios de uso reales.

Conclusiones: Navegar por la incertidumbre

El debate suscitado por los documentos de Apple nos recuerda que aún estamos en las primeras fases de comprensión de la inteligencia artificial. Como señalábamos en nuestro artículo anteriorla distinción entre simulación y razonamiento auténtico sigue siendo uno de los retos más complejos de nuestro tiempo.

La verdadera lección no es si los LLM pueden o no "razonar" en el sentido humano del término, sino cómo podemos construir sistemas que exploten sus puntos fuertes al tiempo que compensan sus limitaciones. En un mundo en el que la IA ya está transformando sectores enteros, la cuestión ya no es si estas herramientas son "inteligentes", sino cómo utilizarlas de forma eficaz y responsable.

El futuro de la IA empresarial probablemente no radique en un único enfoque revolucionario, sino en la orquestación inteligente de varias tecnologías complementarias. Y en este escenario, la capacidad de evaluar de forma crítica y honesta las capacidades de nuestras herramientas se convierte en una ventaja competitiva en sí misma.

Para obtener información sobre la estrategia de IA de su organización y la implantación de soluciones sólidas, nuestro equipo de expertos está a su disposición para consultas personalizadas.

Fuentes y referencias:

Recursos para el crecimiento empresarial

9 de noviembre de 2025

Regulación de la IA para aplicaciones de consumo: cómo prepararse para la nueva normativa de 2025

2025 marca el final de la era del "Salvaje Oeste" de la IA: AI Act EU operativa a partir de agosto de 2024 con obligaciones de alfabetización en IA a partir del 2 de febrero de 2025, gobernanza y GPAI a partir del 2 de agosto. California es pionera con el SB 243 (nacido tras el suicidio de Sewell Setzer, una niña de 14 años que entabló una relación emocional con un chatbot), que impone la prohibición de sistemas de recompensa compulsiva, detección de ideación suicida, recordatorio cada 3 horas de "no soy humano", auditorías públicas independientes, sanciones de 1.000 dólares por infracción. SB 420 exige evaluaciones de impacto para "decisiones automatizadas de alto riesgo" con derechos de apelación de revisión humana. Cumplimiento real: Noom citada en 2022 por bots que se hacían pasar por entrenadores humanos, acuerdo de 56 millones de dólares. Tendencia nacional: Alabama, Hawai, Illinois, Maine, Massachusetts clasifican la falta de notificación de los chatbots de IA como infracción de la UDAP. Enfoque de tres niveles de sistemas de riesgo crítico (sanidad/transporte/energía) certificación previa al despliegue, divulgación transparente de cara al consumidor, registro de uso general+pruebas de seguridad. Mosaico normativo sin prioridad federal: las empresas de varios estados deben navegar por requisitos variables. UE a partir de agosto de 2026: informar a los usuarios de la interacción con la IA a menos que sea obvio, etiquetar el contenido generado por la IA como legible por máquina.
9 de noviembre de 2025

Regular lo que no se crea: ¿corre Europa el riesgo de la irrelevancia tecnológica?

**TÍTULO: Ley Europea de Inteligencia Artificial - La paradoja de quién regula lo que no se desarrolla** **SÍNTESIS:** Europa atrae sólo una décima parte de la inversión mundial en inteligencia artificial, pero pretende dictar las normas mundiales. Este es el "efecto Bruselas": imponer normativas a escala planetaria mediante el poder del mercado sin impulsar la innovación. La Ley de IA entra en vigor de forma escalonada hasta 2027, pero las multinacionales tecnológicas responden con estrategias de evasión creativas: invocando secretos comerciales para evitar revelar datos de entrenamiento, elaborando resúmenes técnicamente conformes pero incomprensibles, utilizando la autoevaluación para rebajar los sistemas de "alto riesgo" a "riesgo mínimo", forum shopping eligiendo Estados miembros con controles menos estrictos. La paradoja de los derechos de autor extraterritoriales: la UE exige que OpenAI cumpla las leyes europeas incluso para la formación fuera de Europa, un principio nunca visto en el derecho internacional. Surge el "modelo dual": versiones europeas limitadas frente a versiones globales avanzadas de los mismos productos de IA. Riesgo real: Europa se convierte en una "fortaleza digital" aislada de la innovación global, con los ciudadanos europeos accediendo a tecnologías inferiores. El Tribunal de Justicia en el caso de la puntuación crediticia ya ha rechazado la defensa de los "secretos comerciales", pero la incertidumbre interpretativa sigue siendo enorme: ¿qué significa exactamente "resumen suficientemente detallado"? Nadie lo sabe. Última cuestión sin resolver: ¿está la UE creando una tercera vía ética entre el capitalismo estadounidense y el control estatal chino, o simplemente exportando burocracia a un ámbito en el que no compite? Por ahora: líder mundial en regulación de la IA, marginal en su desarrollo. Amplio programa.
9 de noviembre de 2025

Outliers: donde la ciencia de datos se encuentra con las historias de éxito

La ciencia de datos ha dado la vuelta al paradigma: los valores atípicos ya no son "errores que hay que eliminar", sino información valiosa que hay que comprender. Un solo valor atípico puede distorsionar por completo un modelo de regresión lineal -cambiar la pendiente de 2 a 10-, pero eliminarlo podría significar perder la señal más importante del conjunto de datos. El aprendizaje automático introduce herramientas sofisticadas: Isolation Forest aísla los valores atípicos construyendo árboles de decisión aleatorios, Local Outlier Factor analiza la densidad local, Autoencoders reconstruye los datos normales e informa de lo que no puede reproducir. Hay valores atípicos globales (temperatura de -10 °C en los trópicos), valores atípicos contextuales (gastar 1.000 euros en un barrio pobre), valores atípicos colectivos (picos sincronizados de tráfico en la red que indican un ataque). Paralelismo con Gladwell: la "regla de las 10.000 horas" es discutida-Paul McCartney dixit "muchas bandas han hecho 10.000 horas en Hamburgo sin éxito, la teoría no es infalible". El éxito matemático asiático no es genético sino cultural: el sistema numérico chino es más intuitivo, el cultivo del arroz requiere una mejora constante frente a la expansión territorial de la agricultura occidental. Aplicaciones reales: los bancos británicos recuperan un 18% de pérdidas potenciales gracias a la detección de anomalías en tiempo real, la industria manufacturera detecta defectos microscópicos que la inspección humana pasaría por alto, la sanidad valida datos de ensayos clínicos con una sensibilidad de detección de anomalías superior al 85%. Lección final: a medida que la ciencia de datos pasa de eliminar los valores atípicos a comprenderlos, debemos ver las trayectorias no convencionales no como anomalías que hay que corregir, sino como valiosas trayectorias que hay que estudiar.