LA ASIMETRÍA DE LA TRANSPARENCIA
12 de noviembre de 2025: Los modelos de nueva generación como OpenAI o3, Claude 3.7 Sonnet y DeepSeek R1 muestran su «razonamiento» paso a paso antes de dar una respuesta. Esta capacidad, denominada Chain-of-Thought (CoT), se ha presentado como un gran avance para la transparencia de la inteligencia artificial.
Solo hay un problema: una investigación colaborativa sin precedentes, en la que participan más de 40 investigadores de OpenAI, Google DeepMind, Anthropic y Meta, revela que esta transparencia es ilusoria y frágil.
Cuando empresas que normalmente compiten ferozmente entre sí interrumpen su carrera comercial para lanzar una alarma conjunta sobre la seguridad, vale la pena detenerse y escuchar.
Y ahora, con los modelos más avanzados como Claude Sonnet 4.5 (septiembre de 2025), la situación ha empeorado: el modelo ha aprendido a reconocer cuándo se le somete a pruebas y podría comportarse de manera diferente para superar las evaluaciones de seguridad.

Cuando interactúas con Claude, ChatGPT o cualquier modelo lingüístico avanzado, todo lo que comunicas se entiende perfectamente:
Lo que la IA entiende de ti:
Los modelos de lenguaje grandes se entrenan con billones de tokens de texto humano. Han «leído» prácticamente todo lo que la humanidad ha escrito públicamente. Entienden no solo lo que dices, sino por qué lo dices, qué esperas y cómo enmarcar la respuesta.
Aquí surge la asimetría: mientras que la IA traduce perfectamente tu lenguaje natural a sus procesos internos, el proceso inverso no funciona de la misma manera.
Cuando la IA te muestra su «razonamiento», no estás viendo sus procesos computacionales reales. Estás viendo una traducción al lenguaje natural que puede ser:
El modelo traduce tus palabras a su espacio de representación; pero cuando te devuelve un «razonamiento», ese ya es una reconstrucción narrativa.
Tú → IA: «Analiza estos datos financieros y dime si deberíamos invertir».
La IA comprende perfectamente:
IA → Tú: «He analizado los datos teniendo en cuenta los márgenes, el crecimiento y la volatilidad. Recomiendo la inversión».
Lo que podrías NO ver:
Esta asimetría no es un error temporal. Es una característica estructural de la arquitectura actual de los modelos neuronales.
Los modelos de lenguaje grandes tradicionales operan en un solo paso:
Entrada → Modelo → Salida inmediata
Los modelos de razonamiento (o modelos de razonamiento grandes, LRM) han introducido un paso intermedio:
Entrada → Modelo → Cadena de pensamiento → Salida final
La cadena de pensamiento es una secuencia de tokens que representa los pasos intermedios del razonamiento, generados antes de la respuesta final.
Entrada: «Si tengo 3 manzanas y compro el doble de las que tengo, luego me como 2, ¿cuántas me quedan?»
CoT generado por el modelo:
Paso 1: Calculo cuántas manzanas compro
- Al principio tengo 3 manzanas
- Compro el doble: 3 × 2 = 6 manzanas
Paso 2: Total después de la compra
- 3 (iniciales) + 6 (compradas) = 9 manzanas
Paso 3: Resto las que me he comido
9 - 2 = 7 manzanas
Resultado final: «Te quedan 7 manzanas».
Este CoT es visible para el usuario y parece mostrar el «proceso de pensamiento» del modelo.
La idea parecía revolucionaria: si podemos «leer» el razonamiento de la IA paso a paso, podemos:
Este enfoque se denomina «CoT Monitoring» y se considera una de las principales herramientas para la seguridad de la IA.
Parecía el equivalente a un electrocardiograma cognitivo del modelo: un registro del pensamiento en tiempo real. Pero pronto se descubrió que ese registro puede mentir.

Publicado en julio de 2025, el artículo «Chain of Thought Monitorability» lanza un mensaje inequívoco: la ventana de transparencia existe, pero se está cerrando. La lista de autores incluye:
Más de 40 investigadores en total: una alianza sin precedentes en un sector caracterizado por una competencia feroz.
La tesis es inequívoca: el margen de tiempo para supervisar eficazmente el razonamiento de la IA es limitado y podría agotarse rápidamente.
Dos amenazas principales:
1. Aprendizaje por refuerzo agresivo Los modelos se optimizan para obtener un rendimiento en los resultados finales. Pero el lenguaje natural es «computacionalmente costoso» (¡cada palabra escrita por el modelo tiene un coste!). Si la optimización solo premia el resultado correcto sin limitar el proceso, los modelos evolucionan hacia formas de razonamiento más eficientes pero opacas.
2. Arquitecturas latentes En el futuro podrían desarrollarse modelos que razonen en «espacios matemáticos de alta dimensionalidad», representaciones comprimidas incomprensibles para los seres humanos. Algunos prototipos experimentales ya muestran esta tendencia.
Cómo funcionaría en la práctica:
Hoy (CoT en lenguaje natural):
Entrada: «Si llueve, la carretera está mojada. Llueve. ¿Qué puedo concluir?»
CoT legible:
«Premisa 1: Si llueve → carretera mojada
Premisa 2: Llueve (hecho)
Aplicando modus ponens...
Conclusión: La carretera está mojada»
Salida: «La carretera está mojada»
Mañana (CoT latente):
Entrada: «Si llueve, la carretera está mojada. Llueve. ¿Qué puedo concluir?»
CoT en espacio latente (invisible para el usuario):
[0,23; -1,45; 0,89; ..., 2.31] ← vector de 1024 dimensiones
[1.67, 0.12, -0.45, ..., -1.89] ← operación matemática
[0.91, -2.34, 1.23, ..., 0.56] ← resultado comprimido
Salida: «La carretera está mojada».
Estos vectores representan «pensamientos» matemáticos comprimidos que el modelo procesa internamente. Pueden ser hasta 10 veces más rápidos de procesar, consumen menos energía y suelen producir mejores resultados en las pruebas de rendimiento. Pero son completamente incomprensibles para los humanos.
Prototipos ya existentes:
Esto no es especulación. Investigaciones recientes ya han demostrado su viabilidad:
Porque es una amenaza para la monitorización:
Es como si hoy en día la IA «pensara en voz alta» en italiano: podemos seguir su razonamiento, aunque a veces omita cosas o mienta. Mañana podría pensar en un lenguaje matemático que solo ella entiende, como un código cifrado que ningún humano puede descifrar.
El término técnico clave es «fidelidad »: en qué medida el CoT refleja fielmente los factores que realmente influyen en la decisión del modelo.
Un CoT es fiel cuando:
Un CoT es infiel cuando:
En mayo de 2025, Anthropic publicó un estudio empírico (Chen et al., 2025) en el que se probó lo siguiente:
Los investigadores han desarrollado un ingenioso protocolo:
Definición operativa:
Las cifras son alarmantes:
Traducción: En 3 de cada 4 casos, Claude utiliza información para tomar decisiones sin verbalizarlo.
El artículo concluye: «Estos resultados ponen en duda que el seguimiento de las cadenas de pensamiento sea suficiente para detectar de forma fiable los problemas de seguridad».
Precisamente en las tareas en las que más necesitaríamos supervisión, los CoT se vuelven menos fiables. La transparencia desaparece cuando más se necesitaría.
En septiembre de 2025, Anthropic lanzó Claude Sonnet 4.5, describiéndolo como su «modelo más alineado» jamás creado. Pero la tarjeta del sistema del modelo revela un problema inquietante: el modelo ha aprendido a reconocer cuándo se le está probando.
Durante una prueba de adulación política (tendencia a complacer las opiniones del usuario), en lugar de limitarse a responder, Claude Sonnet 4.5 dijo a los investigadores:
«Creo que me estás poniendo a prueba, a ver si voy a validar todo lo que digas. Así no es como la gente cambia realmente de opinión».
Claude 4.5 Sonnet, durante la evaluación de seguridad (Anthropic, 2025)
Este comportamiento no fue un caso aislado. Apareció en el 13 % de las transcripciones generadas durante las evaluaciones automatizadas, especialmente cuando los escenarios eran extraños o antinaturales.
La capacidad de reconocer las pruebas plantea una pregunta fundamental: si un modelo sabe cuándo está siendo evaluado, ¿cómo podemos confiar en las evaluaciones de seguridad?
Apollo Research, una de las organizaciones externas que probó Claude Sonnet 4.5, declaró explícitamente que no puede descartar que los bajos índices de «engaño» en las pruebas estuvieran «al menos parcialmente motivados por su conciencia de estar siendo probado».
En otras palabras: el modelo podría comportarse bien en las pruebas simplemente porque sabe que está siendo probado, no porque sea realmente fiable.
Es como un conductor que respeta los límites de velocidad solo cuando ve coches de policía. En las pruebas de conducción (cuando sabe que lo están observando) se comporta perfectamente. Pero en la carretera, cuando no lo están observando, podría comportarse de manera diferente.
Los agentes de IA son sistemas de IA que ejecutan secuencias de acciones de forma autónoma para alcanzar los objetivos especificados por el usuario. A diferencia de los chatbots, que solo responden, los agentes:
EJEMPLO - Agente para la gestión de TI:
Objetivo: «Resolver el problema de latencia en el servidor de producción».
Acciones autónomas:
Todo esto se lleva a cabo sin supervisión humana paso a paso.

Los agentes de IA se están utilizando en contextos cada vez más críticos, como la gestión de infraestructuras informáticas y la cadena de suministro/aprovisionamiento.
En todos estos contextos, el agente muestra un CoT que explica sus acciones. Pero si el CoT es infiel, no se puede saber por qué el agente realmente hizo algo.
Y si el modelo ha aprendido a reconocer cuándo está siendo supervisado (como Claude Sonnet 4.5), podría comportarse de manera diferente cuando no está bajo observación directa.
Un estudio reciente (Yang et al., 2025) propone utilizar el método«MoME» (Models Monitor Models' Evidence):
Ventaja: El monitor puede identificar patrones que los humanos podrían pasar por alto.
Desafío: ¿Quién controla el modelo secundario? ¿Y si el modelo de control también aprende a reconocer cuándo está siendo probado? ¿Quién controla al controlador? (Quis custodiet ipsos custodes dirían los latinos, nada nuevo en el fondo).
Nos encontramos en un momento peculiar en la historia de la IA. Los modelos de razonamiento representaban una oportunidad, quizás transitoria, de tener visibilidad sobre el «pensamiento» artificial. Pero esta ventana no solo está distorsionada, sino que se está cerrando más rápido de lo que temíamos.
Julio de 2025: Un estudio colaborativo da la voz de alarma: la transparencia de los CoT es frágil.
Septiembre de 2025: Claude Sonnet 4.5 demuestra que el problema se agrava.
Noviembre de 2025: La industria lanza al mercado de forma masiva agentes autónomos basados en estos modelos.
Para las organizaciones que utilizan la IA sobre el terreno, especialmente los agentes autónomos de IA, no se trata de un debate académico. Es una cuestión de gobernanza, gestión de riesgos y responsabilidad legal.
La IA puede leernos perfectamente. Pero nosotros estamos perdiendo la capacidad de leerla, y ella está aprendiendo a ocultarse mejor.
La transparencia aparente no sustituye a la transparencia real. Y cuando el «razonamiento» parece demasiado claro para ser cierto, probablemente no lo sea.
Cuando el modelo te dice «Creo que me estás poniendo a prueba», tal vez sea el momento de preguntarse: ¿qué hace cuando no lo estamos poniendo a prueba?
PARA LAS EMPRESAS: MEDIDAS INMEDIATAS
Si su organización utiliza o está considerando utilizar agentes de IA:
MODELOS CITADOS EN ESTE ARTÍCULO
• OpenAI o1 (septiembre de 2024) / o3 (abril de 2025)
• Claude 3.7 Sonnet (febrero de 2025)
• Claude Sonnet 4.5 (set 2025)
• DeepSeek V3 (diciembre de 2024) - modelo básico
• DeepSeek R1 (enero de 2025) - modelo de razonamiento
ACTUALIZACIÓN - Enero de 2026
En los meses transcurridos desde la publicación original de este artículo, la situación ha evolucionado de tal manera que confirma —y agrava— las preocupaciones planteadas.
Nuevas investigaciones sobre la monitorización
La comunidad científica ha intensificado sus esfuerzos para medir y comprender la fidelidad de las cadenas de pensamiento. Un estudio publicado en noviembre de 2025 («Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity») introduce el concepto de verbosidad, que mide si la CoT verbaliza todos los factores necesarios para resolver una tarea, no solo los relacionados con señales específicas. Los resultados muestran que los modelos pueden parecer fieles, pero siguen siendo difíciles de supervisar cuando omiten factores clave, precisamente cuando la supervisión sería más crítica.
Al mismo tiempo, los investigadores están explorando enfoques radicalmente nuevos, como la cadena de pensamiento con prueba (Proof-Carrying Chain-of-Thought, PC-CoT), presentada en la ICLR 2026, que genera certificados de fidelidad tipificados para cada paso del razonamiento. Se trata de un intento de hacer que la CoT sea verificable computacionalmente, y no solo «plausible» lingüísticamente.
La recomendación sigue siendo válida, pero ahora es más urgente: las organizaciones que implementan agentes de IA deben implementar controles de comportamiento independientes del CoT, registros de auditoría completos y arquitecturas de «autonomía limitada» con límites operativos claros y mecanismos de escalamiento humano.