El anuncio de 'Fresa" de OpenAI ha puesto de relieve una limitación fundamental de los modelos lingüísticos: su incapacidad para analizar letras individuales dentro de las palabras. Esta debilidad revela aspectos profundos sobre su funcionamiento.
El problema del recuento
Cuando se pide a ChatGPT que cuente las "r" de la palabra "fresa", el modelo suele equivocarse. Este error no se debe a una falta de inteligencia, sino a la forma en que los modelos lingüísticos analizan el texto. Para entender por qué, hay que conocer el concepto de tokenización.
El mundo visto a través de fichas
Los modelos lingüísticos no ven las palabras como secuencias de letras, sino como "fichas", unidades de significado convertidas en números. Es como leer un libro en el que cada palabra se sustituye por un código numérico. La palabra "libros escolares", por ejemplo, se divide en dos fichas: "escuela" y "libros". Esto explica por qué el modelo tiene dificultades para contar correctamente la "o" de esta palabra: en realidad no la ve como una palabra.
Un ejemplo esclarecedor
Imaginemos que aprendemos un idioma en el que la palabra "escuela" se representa siempre con el número "412". Si alguien nos preguntara cuántas "oes" hay en "412", no seríamos capaces de responder correctamente sin haber visto nunca la palabra escrita en su totalidad. Los modelos lingüísticos se encuentran en una situación similar: procesan significados a través de números, sin acceso a la composición literal de las palabras.
El reto de las palabras compuestas
El problema se agrava aún más con las palabras compuestas. Cronometrador" está dividida en fichas separadas, lo que dificulta que el modelo determine la posición exacta de las letras "y". Esta fragmentación afecta no sólo al recuento de letras, sino también a la comprensión de la estructura interna de la palabra.
La solución al problema de las fresas (tal vez)
El futuro modelo de OpenAI, Strawberry, debería superar esta limitación introduciendo un enfoque innovador en el procesamiento de textos. En lugar de basarse únicamente en la tokenización tradicional, el modelo debería ser capaz de analizar palabras a nivel de letras individuales, lo que permitiría operaciones de recuento y análisis más precisas.
Implicaciones futuras
La importancia de este problema va más allá del simple recuento de letras. Esta capacidad de análisis granular podría mejorar significativamente la comprensión lingüística de los modelos de IA, permitiéndoles abordar problemas que requieren un análisis detallado del texto a nivel de caracteres.
La integración prevista de esta tecnología supondrá un gran avance hacia modelos lingüísticos más capaces de "razonar" sobre los detalles fundamentales del lenguaje, no sólo sobre patrones estadísticos.