Newsletter

Por qué las matemáticas son difíciles (aunque seas una IA)

Los modelos lingüísticos no saben memorizar resultados de la misma manera que nosotros memorizamos pi, pero eso no los convierte en matemáticos. El problema es estructural: aprenden por similitud estadística, no por comprensión algorítmica. Incluso los nuevos "modelos de razonamiento" como o1 fallan en tareas triviales: cuenta correctamente la "r" de "fresa" tras segundos de procesamiento, pero se equivoca cuando tiene que escribir un párrafo en el que la segunda letra de cada frase forma una palabra. La versión premium, de 200 dólares al mes, tarda cuatro minutos en resolver lo que un niño hace al instante. DeepSeek y Mistral en 2025 siguen contando mal las letras. ¿La solución emergente? Un enfoque híbrido: los modelos más inteligentes han descubierto cuándo llamar a una calculadora real en lugar de intentar realizar el cálculo ellos mismos. Cambio de paradigma: la IA no tiene por qué saber hacerlo todo, sino orquestar las herramientas adecuadas. Paradoja final: GPT-4 puede explicarte brillantemente la teoría de límites pero se equivoca en multiplicaciones que una calculadora de bolsillo siempre resuelve correctamente. Para la educación matemática son excelentes: explican con infinita paciencia, adaptan ejemplos, desglosan razonamientos complejos. ¿Para cálculos precisos? Confía en la calculadora, no en la inteligencia artificial.

Muchos confían en LLM también para realizar operaciones matemáticas. Este enfoque no funciona .

En realidad, la cuestión es sencilla: los grandes modelos lingüísticos (LLM) no saben realmente multiplicar. A veces pueden acertar el resultado, igual que yo puedo saberme el valor de pi de memoria. Pero esto no significa que yo sea matemático, ni que los LLM sepan realmente hacer matemáticas.

Ejemplo práctico

Ejemplo: 49858 *59949 = 298896167242 Este resultado es siempre el mismo, no hay término medio. Es correcto o incorrecto.

Incluso con una formación matemática masiva, los mejores modelos sólo consiguen resolver correctamente una parte de las operaciones. Una simple calculadora de bolsillo, en cambio, acierta el 100% de los resultados, siempre. Y cuanto mayores son los números, peor es el rendimiento de los LLM.

¿Es posible resolver este problema?

El problema básico es que estos modelos aprenden por similitud, no por comprensión. Funcionan mejor con problemas similares a aquellos en los que han sido entrenados, pero nunca desarrollan una verdadera comprensión de lo que dicen.

Para quienes deseen saber más, les sugiero este artículo sobre "cómo funciona un LLM".

Una calculadora, en cambio, utiliza un algoritmo preciso programado para realizar la operación matemática.

Por eso nunca debemos confiar completamente en los LLM para los cálculos matemáticos: incluso en las mejores condiciones, con enormes cantidades de datos de entrenamiento específicos, no pueden garantizar la fiabilidad ni siquiera en las operaciones más básicas. Un enfoque híbrido podría funcionar, pero los LLM por sí solos no bastan. Quizá se siga este enfoque para resolver el llamado"problema de la fresa".

Aplicaciones de los LLM al estudio de las matemáticas

En el contexto educativo, los LLM pueden actuar como tutores personalizados, capaces de adaptar las explicaciones al nivel de comprensión del alumno. Por ejemplo, cuando un alumno se enfrenta a un problema de cálculo diferencial, el LLM puede desglosar el razonamiento en pasos más sencillos, proporcionando explicaciones detalladas para cada paso del proceso de solución. Este enfoque ayuda a construir una sólida comprensión de los conceptos fundamentales.

Un aspecto especialmente interesante es la capacidad de los LLM para generar ejemplos relevantes y variados. Si un alumno está intentando comprender el concepto de límite, el LLM puede presentarle diferentes escenarios matemáticos, partiendo de casos sencillos y avanzando hacia situaciones más complejas, lo que permite una comprensión progresiva del concepto.

Una aplicación prometedora es el uso del LLM para traducir conceptos matemáticos complejos a un lenguaje natural más accesible. Esto facilita la comunicación de las matemáticas a un público más amplio y puede ayudar a superar la tradicional barrera de acceso a esta disciplina.

Los LLM también pueden ayudar en la preparación del material didáctico, generando ejercicios de dificultad variable y proporcionando comentarios detallados sobre las soluciones propuestas por los alumnos. Esto permite a los profesores personalizar mejor el itinerario de aprendizaje de sus alumnos.

La verdadera ventaja

También hay que tener en cuenta, de forma más general, la extrema "paciencia" a la hora de ayudar a aprender incluso al alumno menos "capaz": en este caso, la ausencia de emociones ayuda. A pesar de ello, incluso el ai a veces "pierde la paciencia". Véase este "divertido ejemplo.

Actualización 2025: Modelos de razonamiento y enfoque híbrido

2024-2025 trajo consigo avances significativos con la llegada de los llamados "modelos de razonamiento", como OpenAI o1 y deepseek R1. Estos modelos han obtenido resultados impresionantes en pruebas matemáticas de referencia: o1 resuelve correctamente el 83% de los problemas de la Olimpiada Matemática Internacional, frente al 13% de GPT-4o. Pero cuidado: no han resuelto el problema fundamental descrito anteriormente.

El problema de la fresa -contar la 'r' en "fresa"- ilustra perfectamente la persistente limitación. o1 lo resuelve correctamente tras unos segundos de "razonamiento", pero si le pides que escriba un párrafo en el que la segunda letra de cada frase forme la palabra "CÓDIGO", falla. o1-pro, la versión de 200 dólares al mes, lo resuelve... tras 4 minutos de procesamiento. DeepSeek R1 y otros modelos recientes siguen equivocándose en el recuento básico. En febrero de 2025, Mistral seguía respondiendo que sólo hay dos "r" en "fresa".

El truco que está surgiendo es el enfoque híbrido: cuando tienen que multiplicar 49858 por 5994949, los modelos más avanzados ya no intentan "adivinar" el resultado basándose en similitudes con cálculos vistos durante el entrenamiento. En su lugar, llaman a una calculadora o ejecutan código Python, exactamente como lo haría un ser humano inteligente que conoce sus límites.

Este "uso de herramientas" representa un cambio de paradigma: la inteligencia artificial no tiene que ser capaz de hacerlo todo por sí misma, sino de orquestar las herramientas adecuadas. Los modelos de razonamiento combinan la capacidad lingüística para entender el problema, el razonamiento paso a paso para planificar la solución y la delegación en herramientas especializadas (calculadoras, intérpretes de Python, bases de datos) para una ejecución precisa.

¿La lección? Los LLM de 2025 son más útiles en matemáticas no porquehayan "aprendido" a multiplicar -en realidad aún no lo han hecho-, sino porque algunos de ellos han empezado a entender cuándo delegar la multiplicación en quienes realmente pueden hacerlo. El problema básico sigue ahí: funcionan por similitud estadística, no por comprensión algorítmica. Una calculadora de 5 euros sigue siendo infinitamente más fiable para realizar cálculos precisos.

Recursos para el crecimiento empresarial