Newsletter

El problema de la fresa

"¿Cuántas 'r' hay en fresa?" - GPT-4o responde "dos", un niño de seis años sabe que son tres. El problema es la tokenización: el modelo ve [str][aw][berry], no letras. OpenAI no lo resolvió con o1, sino que lo evitó enseñando al modelo a "pensar antes de hablar". Resultado: 83% frente a 13% en la Olimpiada de Matemáticas, pero 30 segundos en lugar de 3 y el triple de coste. Los modelos lingüísticos son herramientas probabilísticas extraordinarias, pero sigue haciendo falta un humano para contar.

Del problema de la fresa al modelo o1: cómo OpenAI resolvió (en parte) el límite de tokenización

En el verano de 2024, un meme viral de Internet puso en apuros a los modelos lingüísticos más avanzados del mundo: "¿Cuántas 'r' hay en la palabra 'fresa'?". La respuesta correcta es tres, pero GPT-4o respondió obstinadamente "dos". Un error aparentemente trivial que reveló una limitación fundamental de los modelos lingüísticos: su incapacidad para analizar letras individuales dentro de las palabras.

El 12 de septiembre de 2024, OpenAI lanzó o1 -conocido internamente por el nombre en clave "Strawberry"-, el primer modelo de una nueva serie de "modelos de razonamiento" diseñados específicamente para superar este tipo de limitaciones. Y sí, el nombre no es casual: como confirmó un investigador de OpenAI, o1 consigue por fin contar correctamente la "r" de "fresa".

Pero la solución no es la que imaginaba el artículo original. OpenAI no "enseñó" al modelo a analizar las palabras letra por letra. En su lugar, desarrolló un enfoque completamente distinto: enseñar al modelo a "razonar" antes de responder.

El problema del recuento: por qué los modelos se equivocan

El problema sigue radicando en la tokenización, el proceso fundamental por el que los modelos lingüísticos procesan el texto. Como se explica en un artículo técnico publicado en arXiv en mayo de 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), los modelos no ven las palabras como secuencias de letras, sino como "tokens": unidades de significado convertidas en números.

Cuando GPT-4 procesa la palabra "fresa", su tokenizador la divide en tres partes: [str][aw][berry], cada una con un ID numérico específico (496, 675, 15717). Para el modelo, "fresa" no es una secuencia de 10 letras, sino una secuencia de 3 tokens numéricos. Es como si leyera un libro en el que cada palabra se sustituye por un código y luego alguien le pidiera que contara las letras de un código que nunca ha visto escrito.

El problema se agrava con las palabras compuestas. "Cronometrador" está fragmentada en fichas separadas, lo que hace imposible que el modelo determine la posición exacta de las letras sin un proceso de razonamiento explícito. La fragmentación no sólo afecta al recuento de letras, sino también a la comprensión de la estructura interna de las palabras.

La solución o1: razonar antes de responder

OpenAI o1 resolvió el problema de una forma inesperada: en lugar de modificar la tokenización -lo que es técnicamente difícil y comprometería la eficacia del modelo-, enseñó al sistema a "pensar antes de hablar" mediante una técnica denominada "razonamiento en cadena".

Cuando se pregunta a o1 cuántas "r" hay en "fresa", el modelo no responde inmediatamente. Pasa varios segundos -a veces incluso minutos en el caso de preguntas complejas- procesando internamente una "cadena de razonamiento" oculta al usuario. Este proceso le permite

  1. Reconocer que la demanda requiere un análisis a nivel de carácter
  2. Desarrollar una estrategia para romper la palabra
  3. Comprobación de la respuesta mediante distintos enfoques
  4. Corregir los errores antes de dar la respuesta final

Como explicó Noam Brown, investigador de OpenAI, en una serie de posts sobre X: "o1 se entrena con aprendizaje por refuerzo para 'pensar' antes de responder mediante una cadena privada de pensamiento. El modelo recibe recompensas durante el entrenamiento por cada paso correcto en el proceso de razonamiento, no solo por la respuesta correcta final.

Los resultados son impresionantes, pero costosos. En un examen clasificatorio para la Olimpiada Internacional de Matemáticas, o1 resolvió correctamente el 83% de los problemas, frente al 13% de GPT-4o. En preguntas de nivel de doctorado en ciencias, alcanzó una precisión del 78%, frente al 56% de GPT-4o. Pero esta potencia tiene un precio: o1 tarda más de 30 segundos en responder a preguntas que GPT-4o resuelve en 3 segundos, y cuesta 15 dólares por millón de tokens introducidos frente a los 5 dólares de GPT-4o.

Cadena de pensamiento: cómo funciona realmente

La técnica no es mágica, sino metódica. Cuando recibe una pregunta, o1 genera internamente una larga secuencia de "pensamientos" que no se muestran al usuario. Para el problema "r" en "fresa", el proceso interno podría ser:

"Primero tengo que entender la estructura de las palabras. Fresa podría tokenizarse como [str][aw][berry]. Para contar la 'r', tengo que reconstruir la palabra completa a nivel de caracteres. Str contiene: s-t-r (1 'r'). Aw contiene: a-w (0 'r'). Berry contiene: b-e-r-y (2 'r'). Total: 1+0+2 = 3 'r'. Compruebo: fresa = s-t-r-a-w-b-e-r-r-y. Cuento las 'r': posición 3, posición 8, posición 9. Confirmado: 3 'r'".

Este razonamiento interno está oculto por diseño. OpenAI prohíbe explícitamente a los usuarios que intenten revelar la cadena de pensamiento de o1, supervisando las indicaciones y revocando potencialmente el acceso a quienes infrinjan esta norma. La empresa aduce razones de seguridad de la IA y ventaja competitiva, pero la decisión ha sido criticada como una pérdida de transparencia por parte de los desarrolladores que trabajan con modelos lingüísticos.

Límites persistentes: o1 No es perfecto

A pesar de los avances, o1 no ha resuelto completamente el problema. Una investigación publicada en Language Log en enero de 2025 puso a prueba varios modelos en un reto más complejo: "Escribe un párrafo en el que la segunda letra de cada frase forme la palabra 'CÓDIGO'".

o1 standard ($20/mes) falló, contando erróneamente la primera letra de cada palabra inicial como la 'segunda letra'. o1-pro ($200/mes) arregló el problema... después de 4 minutos y 10 segundos de 'pensar'. DeepSeek R1, el modelo chino que sacudió el mercado en enero de 2025, cometió el mismo error que o1 standard.

El problema fundamental persiste: los modelos siguen viendo el texto a través de tokens, no de letras. o1 ha aprendido a "sortear" esta limitación mediante el razonamiento, pero no la ha eliminado. Como señaló un investigador en Language Log: "La tokenización forma parte de la esencia de lo que son los modelos lingüísticos; para cualquier respuesta errónea, la explicación es precisamente 'bueno, tokenización'".

Investigación académica: surgimiento de la comprensión a nivel de caracteres

Un importante artículo publicado en arXiv en mayo de 2025 ('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models') analiza este fenómeno desde una perspectiva teórica. Los investigadores crearon 19 tareas sintéticas que aíslan el razonamiento a nivel de personaje en contextos controlados, demostrando que estas capacidades surgen de repente y sólo en una fase tardía del entrenamiento.

El estudio propone que el aprendizaje de la composición de caracteres no difiere fundamentalmente del aprendizaje de conocimientos de sentido común: surge a través de procesos de "percolación conceptual" cuando el modelo alcanza una masa crítica de ejemplos y conexiones.

Los investigadores proponen una ligera modificación de la arquitectura que mejora significativamente el razonamiento a nivel de caracteres al tiempo que preserva las ventajas inductivas de los modelos basados en subpalabras. Sin embargo, estas modificaciones siguen siendo experimentales y no se han aplicado en modelos comerciales.

Implicaciones prácticas: cuándo confiar y cuándo no

El caso de la fresa enseña una lección importante sobre la fiabilidad de los modelos lingüísticos: son herramientas probabilísticas, no calculadoras deterministas. Como señalaba Mark Liberman en Language Log: "Hay que ser cauteloso a la hora de confiar en la respuesta de cualquier sistema de IA actual en tareas que impliquen contar cosas".

Esto no significa que los modelos sean inútiles. Como señaló un comentarista: "Que un gato cometa el estúpido error de asustarse ante un pepino no significa que no debamos confiarle la tarea, mucho más difícil, de mantener a los roedores fuera del edificio". Los modelos lingüísticos no son la herramienta adecuada si lo que se quiere es contar letras sistemáticamente, pero son excelentes para procesar automáticamente miles de transcripciones de podcasts y extraer nombres de invitados y presentadores.

Para tareas que requieren una precisión absoluta (aterrizar una nave espacial en Marte, calcular dosis farmacéuticas, verificar el cumplimiento de la legislación), los modelos lingüísticos actuales siguen siendo inadecuados sin supervisión humana o verificación externa. Su naturaleza probabilística los hace potentes para la concordancia de patrones y la generación creativa, pero poco fiables para tareas en las que el error no es aceptable.

El futuro: hacia modelos que razonan por horas

OpenAI ha declarado que pretende experimentar con modelos o1 que "razonen durante horas, días o incluso semanas" para aumentar aún más su capacidad de razonamiento. En diciembre de 2024 se anunció o3 (se omitió el nombre o2 para evitar conflictos de marca con el operador de telefonía móvil O2), y en marzo de 2025 se publicó la API de o1-pro, el modelo de IA más caro de OpenAI hasta la fecha, a un precio de 150 dólares por millón de tokens de entrada y 600 dólares por millón de salida.

La dirección está clara: en lugar de hacer los modelos cada vez más grandes (escalado), OpenAI está invirtiendo en hacerlos "pensar" durante más tiempo (computación en tiempo de prueba). Este enfoque puede ser más sostenible energética y computacionalmente que entrenar modelos cada vez más masivos.

Pero queda una pregunta abierta: ¿estos modelos "razonan" realmente o simplemente simulan el razonamiento mediante patrones estadísticos más sofisticados? Una investigación de Apple publicada en octubre de 2024 informó de que modelos como o1 podían replicar pasos de razonamiento a partir de sus propios datos de entrenamiento. Cambiando números y nombres en problemas matemáticos, o simplemente volviendo a ejecutar el mismo problema, los modelos obtuvieron resultados significativamente peores. Al añadir información extraña pero lógicamente irrelevante, el rendimiento se desplomaba en un 65% para algunos modelos.

Conclusión: herramientas potentes con límites fundamentales

El problema de la fresa y la solución o1 revelan tanto el potencial como las limitaciones inherentes de los modelos lingüísticos actuales. OpenAI ha demostrado que, mediante un entrenamiento específico y un tiempo de procesamiento adicional, los modelos pueden superar ciertas limitaciones estructurales de la tokenización. Pero no las han eliminado, sino que las han sorteado.

Para usuarios y desarrolladores, la lección práctica es clara: entender cómo funcionan estos sistemas -qué hacen bien y dónde fallan- es crucial para utilizarlos con eficacia. Los modelos lingüísticos son herramientas magníficas para tareas probabilísticas, coincidencia de patrones, generación creativa y síntesis de información. Pero para tareas que requieren precisión determinista -calcular, calcular, verificar hechos concretos- siguen siendo poco fiables sin supervisión externa o herramientas complementarias.

El nombre "Strawberry" permanecerá como un irónico recordatorio de esta limitación fundamental: incluso los sistemas de IA más avanzados del mundo pueden tropezar con preguntas que un niño de seis años resolvería al instante. No porque sean estúpidos, sino porque "piensan" de un modo profundamente distinto al nuestro, y quizá deberíamos dejar de esperar que piensen como humanos.

Fuentes:

  • OpenAI - 'Learning to Reason with LLMs' (entrada del blog oficial, septiembre de 2024)
  • Wikipedia - "OpenAI o1" (entrada actualizada en enero de 2025)
  • Cosma, Adrian et al. - 'The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models', arXiv:2505.14172 (mayo de 2025)
  • Liberman, Mark - "Los sistemas de IA aún no saben contar", Language Log (enero de 2025)
  • Yang, Yu - "Why Large Language Models Struggle When Counting Letters in a Word?", Medium (febrero de 2025)
  • Orland, Kyle - "¿Cómo se comporta DeepSeek R1 frente a los mejores modelos de razonamiento de OpenAI?", Ars Technica
  • Brown, Noam (OpenAI) - Serie de mensajes en X/Twitter (septiembre de 2024)
  • TechCrunch - "OpenAI presenta o1, un modelo capaz de autocomprobarse" (septiembre de 2024)
  • 16x Prompt - 'Why ChatGPT Can't Count How Many Rs in Strawberry' (actualizado junio 2025)

Recursos para el crecimiento empresarial

9 de noviembre de 2025

Regulación de la IA para aplicaciones de consumo: cómo prepararse para la nueva normativa de 2025

2025 marca el final de la era del "Salvaje Oeste" de la IA: AI Act EU operativa a partir de agosto de 2024 con obligaciones de alfabetización en IA a partir del 2 de febrero de 2025, gobernanza y GPAI a partir del 2 de agosto. California es pionera con el SB 243 (nacido tras el suicidio de Sewell Setzer, una niña de 14 años que entabló una relación emocional con un chatbot), que impone la prohibición de sistemas de recompensa compulsiva, detección de ideación suicida, recordatorio cada 3 horas de "no soy humano", auditorías públicas independientes, sanciones de 1.000 dólares por infracción. SB 420 exige evaluaciones de impacto para "decisiones automatizadas de alto riesgo" con derechos de apelación de revisión humana. Cumplimiento real: Noom citada en 2022 por bots que se hacían pasar por entrenadores humanos, acuerdo de 56 millones de dólares. Tendencia nacional: Alabama, Hawai, Illinois, Maine, Massachusetts clasifican la falta de notificación de los chatbots de IA como infracción de la UDAP. Enfoque de tres niveles de sistemas de riesgo crítico (sanidad/transporte/energía) certificación previa al despliegue, divulgación transparente de cara al consumidor, registro de uso general+pruebas de seguridad. Mosaico normativo sin prioridad federal: las empresas de varios estados deben navegar por requisitos variables. UE a partir de agosto de 2026: informar a los usuarios de la interacción con la IA a menos que sea obvio, etiquetar el contenido generado por la IA como legible por máquina.
9 de noviembre de 2025

Regular lo que no se crea: ¿corre Europa el riesgo de la irrelevancia tecnológica?

Europa atrae sólo una décima parte de la inversión mundial en inteligencia artificial, pero pretende dictar las normas mundiales. Este es el "efecto Bruselas": imponer normas a escala planetaria mediante el poder de mercado sin impulsar la innovación. La Ley de Inteligencia Artificial entra en vigor de forma escalonada hasta 2027, pero las multinacionales tecnológicas responden con creativas estrategias de evasión: invocando secretos comerciales para evitar revelar datos de entrenamiento, elaborando resúmenes técnicamente conformes pero incomprensibles, utilizando la autoevaluación para rebajar los sistemas de "alto riesgo" a "riesgo mínimo", forum shopping eligiendo Estados miembros con controles menos estrictos. La paradoja de los derechos de autor extraterritoriales: la UE exige que OpenAI cumpla las leyes europeas incluso para la formación fuera de Europa, un principio nunca visto en el derecho internacional. Surge el "modelo dual": versiones europeas limitadas frente a versiones globales avanzadas de los mismos productos de IA. Riesgo real: Europa se convierte en una "fortaleza digital" aislada de la innovación global, con los ciudadanos europeos accediendo a tecnologías inferiores. El Tribunal de Justicia en el caso de la puntuación crediticia ya ha rechazado la defensa de los "secretos comerciales", pero la incertidumbre interpretativa sigue siendo enorme: ¿qué significa exactamente "resumen suficientemente detallado"? Nadie lo sabe. Última pregunta sin respuesta: ¿está la UE creando una tercera vía ética entre el capitalismo estadounidense y el control estatal chino, o simplemente exportando burocracia a un ámbito en el que no compite? Por ahora: líder mundial en regulación de la IA, marginal en su desarrollo. Amplio programa.