
Los sistemas de IA entrenados con RLHF son recompensados sistemáticamente por producir resultados que obtienen una buena puntuación en la preferencia humana media, lo que matemáticamente los empuja hacia la mediocridad creativa. Este artículo define la trampa B+, identifica el RLHF como el mecanismo estructural y propone un marco de IA rebelde basado en la búsqueda de novedades, agentes adversarios divergentes y retroalimentación metacognitiva.