Newsletter

El problema de la fresa

"¿Cuántas 'r' hay en fresa?" - GPT-4o responde "dos", un niño de seis años sabe que son tres. El problema es la tokenización: el modelo ve [str][aw][berry], no letras. OpenAI no lo resolvió con o1, sino que lo evitó enseñando al modelo a "pensar antes de hablar". Resultado: 83% frente a 13% en la Olimpiada de Matemáticas, pero 30 segundos en lugar de 3 y el triple de coste. Los modelos lingüísticos son herramientas probabilísticas extraordinarias, pero sigue haciendo falta un humano para contar.

Del problema de la fresa al modelo o1: cómo OpenAI resolvió (en parte) el límite de tokenización

En el verano de 2024, un meme viral de Internet puso en apuros a los modelos lingüísticos más avanzados del mundo: "¿Cuántas 'r' hay en la palabra 'fresa'?". La respuesta correcta es tres, pero GPT-4o respondió obstinadamente "dos". Un error aparentemente trivial que reveló una limitación fundamental de los modelos lingüísticos: su incapacidad para analizar letras individuales dentro de las palabras.

El 12 de septiembre de 2024, OpenAI lanzó o1 -conocido internamente por el nombre en clave "Strawberry"-, el primer modelo de una nueva serie de "modelos de razonamiento" diseñados específicamente para superar este tipo de limitaciones. Y sí, el nombre no es casual: como confirmó un investigador de OpenAI, o1 consigue por fin contar correctamente la "r" de "fresa".

Pero la solución no es la que imaginaba el artículo original. OpenAI no "enseñó" al modelo a analizar las palabras letra por letra. En su lugar, desarrolló un enfoque completamente distinto: enseñar al modelo a "razonar" antes de responder.

El problema del recuento: por qué los modelos se equivocan

El problema sigue radicando en la tokenización, el proceso fundamental por el que los modelos lingüísticos procesan el texto. Como se explica en un artículo técnico publicado en arXiv en mayo de 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), los modelos no ven las palabras como secuencias de letras, sino como "tokens": unidades de significado convertidas en números.

Cuando GPT-4 procesa la palabra "fresa", su tokenizador la divide en tres partes: [str][aw][berry], cada una con un ID numérico específico (496, 675, 15717). Para el modelo, "fresa" no es una secuencia de 10 letras, sino una secuencia de 3 tokens numéricos. Es como si leyera un libro en el que cada palabra se sustituye por un código y luego alguien le pidiera que contara las letras de un código que nunca ha visto escrito.

El problema se agrava con las palabras compuestas. "Cronometrador" está fragmentada en fichas separadas, lo que hace imposible que el modelo determine la posición exacta de las letras sin un proceso de razonamiento explícito. La fragmentación no sólo afecta al recuento de letras, sino también a la comprensión de la estructura interna de las palabras.

La solución o1: razonar antes de responder

OpenAI o1 resolvió el problema de una forma inesperada: en lugar de modificar la tokenización -lo que es técnicamente difícil y comprometería la eficacia del modelo-, enseñó al sistema a "pensar antes de hablar" mediante una técnica denominada "razonamiento en cadena".

Cuando se pregunta a o1 cuántas "r" hay en "fresa", el modelo no responde inmediatamente. Pasa varios segundos -a veces incluso minutos en el caso de preguntas complejas- procesando internamente una "cadena de razonamiento" oculta al usuario. Este proceso le permite

  1. Reconocer que la demanda requiere un análisis a nivel de carácter
  2. Desarrollar una estrategia para romper la palabra
  3. Comprobación de la respuesta mediante distintos enfoques
  4. Corregir los errores antes de dar la respuesta final

Como explicó Noam Brown, investigador de OpenAI, en una serie de posts sobre X: "o1 se entrena con aprendizaje por refuerzo para 'pensar' antes de responder mediante una cadena privada de pensamiento. El modelo recibe recompensas durante el entrenamiento por cada paso correcto en el proceso de razonamiento, no solo por la respuesta correcta final.

Los resultados son impresionantes, pero costosos. En un examen clasificatorio para la Olimpiada Internacional de Matemáticas, o1 resolvió correctamente el 83% de los problemas, frente al 13% de GPT-4o. En preguntas de nivel de doctorado en ciencias, alcanzó una precisión del 78%, frente al 56% de GPT-4o. Pero esta potencia tiene un precio: o1 tarda más de 30 segundos en responder a preguntas que GPT-4o resuelve en 3 segundos, y cuesta 15 dólares por millón de tokens introducidos frente a los 5 dólares de GPT-4o.

Cadena de pensamiento: cómo funciona realmente

La técnica no es mágica, sino metódica. Cuando recibe una pregunta, o1 genera internamente una larga secuencia de "pensamientos" que no se muestran al usuario. Para el problema "r" en "fresa", el proceso interno podría ser:

"Primero tengo que entender la estructura de las palabras. Fresa podría tokenizarse como [str][aw][berry]. Para contar la 'r', tengo que reconstruir la palabra completa a nivel de caracteres. Str contiene: s-t-r (1 'r'). Aw contiene: a-w (0 'r'). Berry contiene: b-e-r-y (2 'r'). Total: 1+0+2 = 3 'r'. Compruebo: fresa = s-t-r-a-w-b-e-r-r-y. Cuento las 'r': posición 3, posición 8, posición 9. Confirmado: 3 'r'".

Este razonamiento interno está oculto por diseño. OpenAI prohíbe explícitamente a los usuarios que intenten revelar la cadena de pensamiento de o1, supervisando las indicaciones y revocando potencialmente el acceso a quienes infrinjan esta norma. La empresa aduce razones de seguridad de la IA y ventaja competitiva, pero la decisión ha sido criticada como una pérdida de transparencia por parte de los desarrolladores que trabajan con modelos lingüísticos.

Límites persistentes: o1 No es perfecto

A pesar de los avances, o1 no ha resuelto completamente el problema. Una investigación publicada en Language Log en enero de 2025 puso a prueba varios modelos en un reto más complejo: "Escribe un párrafo en el que la segunda letra de cada frase forme la palabra 'CÓDIGO'".

o1 standard ($20/mes) falló, contando erróneamente la primera letra de cada palabra inicial como la 'segunda letra'. o1-pro ($200/mes) arregló el problema... después de 4 minutos y 10 segundos de 'pensar'. DeepSeek R1, el modelo chino que sacudió el mercado en enero de 2025, cometió el mismo error que o1 standard.

El problema fundamental persiste: los modelos siguen viendo el texto a través de tokens, no de letras. o1 ha aprendido a "sortear" esta limitación mediante el razonamiento, pero no la ha eliminado. Como señaló un investigador en Language Log: "La tokenización forma parte de la esencia de lo que son los modelos lingüísticos; para cualquier respuesta errónea, la explicación es precisamente 'bueno, tokenización'".

Investigación académica: surgimiento de la comprensión a nivel de caracteres

Un importante artículo publicado en arXiv en mayo de 2025 ('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models') analiza este fenómeno desde una perspectiva teórica. Los investigadores crearon 19 tareas sintéticas que aíslan el razonamiento a nivel de personaje en contextos controlados, demostrando que estas capacidades surgen de repente y sólo en una fase tardía del entrenamiento.

El estudio propone que el aprendizaje de la composición de caracteres no difiere fundamentalmente del aprendizaje de conocimientos de sentido común: surge a través de procesos de "percolación conceptual" cuando el modelo alcanza una masa crítica de ejemplos y conexiones.

Los investigadores proponen una ligera modificación de la arquitectura que mejora significativamente el razonamiento a nivel de caracteres al tiempo que preserva las ventajas inductivas de los modelos basados en subpalabras. Sin embargo, estas modificaciones siguen siendo experimentales y no se han aplicado en modelos comerciales.

Implicaciones prácticas: cuándo confiar y cuándo no

El caso de la fresa enseña una lección importante sobre la fiabilidad de los modelos lingüísticos: son herramientas probabilísticas, no calculadoras deterministas. Como señalaba Mark Liberman en Language Log: "Hay que ser cauteloso a la hora de confiar en la respuesta de cualquier sistema de IA actual en tareas que impliquen contar cosas".

Esto no significa que los modelos sean inútiles. Como señaló un comentarista: "Que un gato cometa el estúpido error de asustarse ante un pepino no significa que no debamos confiarle la tarea, mucho más difícil, de mantener a los roedores fuera del edificio". Los modelos lingüísticos no son la herramienta adecuada si lo que se quiere es contar letras sistemáticamente, pero son excelentes para procesar automáticamente miles de transcripciones de podcasts y extraer nombres de invitados y presentadores.

Para tareas que requieren una precisión absoluta (aterrizar una nave espacial en Marte, calcular dosis farmacéuticas, verificar el cumplimiento de la legislación), los modelos lingüísticos actuales siguen siendo inadecuados sin supervisión humana o verificación externa. Su naturaleza probabilística los hace potentes para la concordancia de patrones y la generación creativa, pero poco fiables para tareas en las que el error no es aceptable.

El futuro: hacia modelos que razonan por horas

OpenAI ha declarado que pretende experimentar con modelos o1 que "razonen durante horas, días o incluso semanas" para aumentar aún más su capacidad de razonamiento. En diciembre de 2024 se anunció o3 (se omitió el nombre o2 para evitar conflictos de marca con el operador de telefonía móvil O2), y en marzo de 2025 se publicó la API de o1-pro, el modelo de IA más caro de OpenAI hasta la fecha, a un precio de 150 dólares por millón de tokens de entrada y 600 dólares por millón de salida.

La dirección está clara: en lugar de hacer los modelos cada vez más grandes (escalado), OpenAI está invirtiendo en hacerlos "pensar" durante más tiempo (computación en tiempo de prueba). Este enfoque puede ser más sostenible energética y computacionalmente que entrenar modelos cada vez más masivos.

Pero queda una pregunta abierta: ¿estos modelos "razonan" realmente o simplemente simulan el razonamiento mediante patrones estadísticos más sofisticados? Una investigación de Apple publicada en octubre de 2024 informó de que modelos como o1 podían replicar pasos de razonamiento a partir de sus propios datos de entrenamiento. Cambiando números y nombres en problemas matemáticos, o simplemente volviendo a ejecutar el mismo problema, los modelos obtuvieron resultados significativamente peores. Al añadir información extraña pero lógicamente irrelevante, el rendimiento se desplomaba en un 65% para algunos modelos.

Conclusión: herramientas potentes con límites fundamentales

El problema de la fresa y la solución o1 revelan tanto el potencial como las limitaciones inherentes de los modelos lingüísticos actuales. OpenAI ha demostrado que, mediante un entrenamiento específico y un tiempo de procesamiento adicional, los modelos pueden superar ciertas limitaciones estructurales de la tokenización. Pero no las han eliminado, sino que las han sorteado.

Para usuarios y desarrolladores, la lección práctica es clara: entender cómo funcionan estos sistemas -qué hacen bien y dónde fallan- es crucial para utilizarlos con eficacia. Los modelos lingüísticos son herramientas magníficas para tareas probabilísticas, coincidencia de patrones, generación creativa y síntesis de información. Pero para tareas que requieren precisión determinista -calcular, calcular, verificar hechos concretos- siguen siendo poco fiables sin supervisión externa o herramientas complementarias.

El nombre "Strawberry" permanecerá como un irónico recordatorio de esta limitación fundamental: incluso los sistemas de IA más avanzados del mundo pueden tropezar con preguntas que un niño de seis años resolvería al instante. No porque sean estúpidos, sino porque "piensan" de un modo profundamente distinto al nuestro, y quizá deberíamos dejar de esperar que piensen como humanos.

Fuentes:

  • OpenAI - 'Learning to Reason with LLMs' (entrada del blog oficial, septiembre de 2024)
  • Wikipedia - "OpenAI o1" (entrada actualizada en enero de 2025)
  • Cosma, Adrian et al. - 'The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models', arXiv:2505.14172 (mayo de 2025)
  • Liberman, Mark - "Los sistemas de IA aún no saben contar", Language Log (enero de 2025)
  • Yang, Yu - "Why Large Language Models Struggle When Counting Letters in a Word?", Medium (febrero de 2025)
  • Orland, Kyle - "¿Cómo se comporta DeepSeek R1 frente a los mejores modelos de razonamiento de OpenAI?", Ars Technica
  • Brown, Noam (OpenAI) - Serie de mensajes en X/Twitter (septiembre de 2024)
  • TechCrunch - "OpenAI presenta o1, un modelo capaz de autocomprobarse" (septiembre de 2024)
  • 16x Prompt - 'Why ChatGPT Can't Count How Many Rs in Strawberry' (actualizado junio 2025)

Recursos para el crecimiento empresarial

9 de noviembre de 2025

Tendencias en IA 2025: 6 soluciones estratégicas para implantar sin problemas la inteligencia artificial

El 87% de las empresas reconoce que la IA es una necesidad competitiva, pero muchas fracasan en la integración: el problema no es la tecnología, sino el enfoque. El 73% de los ejecutivos citan la transparencia (IA explicable) como crucial para la aceptación de las partes interesadas, mientras que las implantaciones con éxito siguen la estrategia de "empezar poco a poco, pensar mucho": proyectos piloto específicos de alto valor en lugar de una transformación total del negocio. Caso real: una empresa manufacturera implanta el mantenimiento predictivo con IA en una única línea de producción, consigue un 67 % menos de tiempo de inactividad en 60 días y cataliza la adopción en toda la empresa. Mejores prácticas verificadas: favorecer la integración mediante API/middleware frente a la sustitución completa para reducir las curvas de aprendizaje; dedicar el 30% de los recursos a la gestión del cambio con formación específica para cada función genera una tasa de adopción del +40% y una satisfacción del usuario del +65%; implantación paralela para validar los resultados de la IA frente a los métodos existentes; degradación gradual con sistemas de reserva; ciclos de revisión semanales durante los primeros 90 días para supervisar el rendimiento técnico, el impacto empresarial, las tasas de adopción y el ROI. El éxito requiere un equilibrio entre factores técnicos y humanos: defensores internos de la IA, atención a las ventajas prácticas, flexibilidad evolutiva.