Outliers: donde la ciencia de datos se encuentra con las historias de éxito
La ciencia de datos ha dado la vuelta al paradigma: los valores atípicos ya no son "errores que hay que eliminar", sino información valiosa que hay que comprender. Un solo valor atípico puede distorsionar por completo un modelo de regresión lineal -cambiar la pendiente de 2 a 10-, pero eliminarlo podría significar perder la señal más importante del conjunto de datos. El aprendizaje automático introduce herramientas sofisticadas: Isolation Forest aísla los valores atípicos construyendo árboles de decisión aleatorios, Local Outlier Factor analiza la densidad local, Autoencoders reconstruye los datos normales e informa de lo que no puede reproducir. Hay valores atípicos globales (temperatura de -10 °C en los trópicos), valores atípicos contextuales (gastar 1.000 euros en un barrio pobre), valores atípicos colectivos (picos sincronizados de tráfico en la red que indican un ataque). Paralelismo con Gladwell: la "regla de las 10.000 horas" es discutida-Paul McCartney dixit "muchas bandas han hecho 10.000 horas en Hamburgo sin éxito, la teoría no es infalible". El éxito matemático asiático no es genético sino cultural: el sistema numérico chino es más intuitivo, el cultivo del arroz requiere una mejora constante frente a la expansión territorial de la agricultura occidental. Aplicaciones reales: los bancos británicos recuperan un 18% de pérdidas potenciales gracias a la detección de anomalías en tiempo real, la industria manufacturera detecta defectos microscópicos que la inspección humana pasaría por alto, la sanidad valida datos de ensayos clínicos con una sensibilidad de detección de anomalías superior al 85%. Lección final: a medida que la ciencia de datos pasa de eliminar los valores atípicos a comprenderlos, debemos ver las trayectorias no convencionales no como anomalías que hay que corregir, sino como valiosas trayectorias que hay que estudiar.