Fabio Lauria

Outliers: donde la ciencia de datos se encuentra con las historias de éxito

11 de agosto de 2025
Compartir en las redes sociales

Evolución del concepto de valor atípico

La ciencia de datos moderna ha revolucionado la forma de entender los valores atípicos, transformándolos de meros "errores" que hay que eliminar en valiosas fuentes de información. Paralelamente, el libro de Malcolm Gladwell "Outliers: La historia del éxito" de Malcolm Gladwell nos ofrece una perspectiva complementaria del éxito humano como fenómeno estadísticamente anómalo pero significativo.

De herramientas sencillas a métodos sofisticados

En la estadística tradicional, los valores atípicos se identificaban mediante métodos relativamente sencillos como los boxplots, la puntuación Z (que mide cuánto se desvía un valor de la media) y el rango intercuartílico (IQR).

Estos métodos, aunque útiles, tienen importantes limitaciones. Bastaría un único valor atípico para distorsionar por completo un modelo de regresión lineal, por ejemplo, aumentando la pendiente de 2 a 10. Esto hace que los modelos estadísticos tradicionales sean vulnerables en contextos reales. Esto hace que los modelos estadísticos tradicionales sean vulnerables en contextos reales.

El aprendizaje automático ha introducido enfoques más sofisticados que superan estas limitaciones:

  • Bosque de aislamiento: algoritmo que "aísla" los valores atípicos construyendo árboles de decisión aleatorios. Los valores atípicos tienden a aislarse más rápido que los puntos normales, por lo que requieren menos divisiones.
  • Factor atípico local: este método analiza la densidad local alrededor de cada punto. Un punto situado en una región de baja densidad en comparación con sus vecinos se considera un valor atípico.
  • Autocodificador: redes neuronales que aprenden a comprimir y reconstruir datos normales. Cuando un punto es difícil de reconstruir (produce un error elevado), se considera anormal.

Tipos de valores atípicos en el mundo real

La ciencia de datos distingue diferentes categorías de valores atípicos, cada una con implicaciones únicas:

  • Valores atípicos globales: valores que están claramente fuera de escala con respecto a todo el conjunto de datos, como una temperatura de -10 °C registrada en un clima tropical.
  • Valores atípicos contextuales: Valores que parecen normales en general pero que son atípicos en su contexto específico. Por ejemplo, un gasto de 1.000 euros en un barrio de renta baja o un aumento repentino del tráfico web a las 3 de la madrugada.
  • Valores atípicos colectivos: Grupos de valores que, en conjunto, muestran un comportamiento anómalo. Un ejemplo clásico son los picos sincronizados en el tráfico de red que podrían indicar un ciberataque.

El paralelismo con la teoría del éxito de Gladwell

La "regla de las 10.000 horas" y sus límites

En su libro, Gladwell introduce la famosa "regla de las 10.000 horas", argumentando que la pericia requiere esta cantidad específica de práctica deliberada. Pone ejemplos como el de Bill Gates, que tuvo acceso privilegiado a un terminal de ordenador cuando aún era un adolescente, acumulando valiosas horas de programación.

Esta teoría, aunque fascinante, ha sido criticada a lo largo del tiempo. Como señaló Paul McCartney: "Hay muchas bandas que han ensayado 10.000 horas en Hamburgo y no han tenido éxito, así que no es una teoría infalible".

El propio concepto en que se basa esta regla ha sido cuestionado por varios autores y estudiosos, y nosotros mismos albergamos serias dudas sobre la validez de la teoría o su universalidad. Para los interesados en profundizar en las cuestiones abordadas en el libro, señalo este ejemplopero pueden encontrar muchos más si están interesados.

Del mismo modo, en la ciencia de datos nos hemos dado cuenta de que lo importante no es sólo la cantidad de datos, sino su calidad y contexto. Un algoritmo no mejora automáticamente con más datos: necesita una comprensión contextual y una calidad adecuada.

La importancia del contexto cultural

Gladwell destaca cómo la cultura influye profundamente en la probabilidad de éxito. Analiza, por ejemplo, cómo los descendientes de los arroceros asiáticos tienden a destacar en matemáticas no por razones genéticas, sino por factores lingüísticos y culturales:

  • El sistema numérico chino es más intuitivo y requiere menos sílabas para pronunciar los números
  • El cultivo del arroz, a diferencia de la agricultura occidental, requiere una mejora constante y meticulosa de las técnicas existentes en lugar de la expansión a nuevas tierras.

Esta observación cultural resuena con el enfoque contextual de los valores atípicos en la ciencia de datos moderna. Del mismo modo que un valor puede ser anómalo en un contexto pero normal en otro, el éxito también es profundamente contextual.

Estrategias de mitigación: ¿qué podemos hacer?

En la ciencia de datos moderna, se emplean diferentes estrategias para tratar los valores atípicos:

  1. Eliminación: Justificada sólo para errores obvios (como edades negativas), pero arriesgada porque podría eliminar señales importantes.
  2. Transformación: técnicas como la "winsorización" (sustitución de valores extremos por valores menos extremos) preservan los datos al reducir su impacto distorsionador.
  3. Selección algorítmica: utilice modelos intrínsecamente robustos a los valores atípicos, como Random Forests en lugar de la regresión lineal.
  4. Reparación generativa: uso de técnicas avanzadas como las GAN (redes generativas adversariales) para sintetizar sustituciones plausibles de valores atípicos.

Casos reales de detección de valores atípicos en aprendizaje automático e inteligencia artificial

Las recientes aplicaciones de metodologías de detección de valores atípicos y anomalías han transformado radicalmente la forma en que las organizaciones identifican patrones inusuales en diversos sectores:

Banca y seguros

Un estudio de caso especialmente interesante se refiere a la aplicación de técnicas de detección de valores atípicos basadas en el aprendizaje por refuerzo para analizar datos granulares comunicados por fondos de pensiones y seguros holandeses. De acuerdo con los marcos normativos Solvencia II y FTK, estas instituciones financieras tienen que presentar grandes conjuntos de datos que requieren una validación cuidadosa. Los investigadores desarrollaron un método conjunto que combina varios algoritmos de detección de valores atípicos, como el análisis del rango intercuartílico, la métrica de la distancia al vecino más próximo y el cálculo del factor local de valores atípicos, mejorado con el aprendizaje por refuerzo para optimizar las ponderaciones del conjunto.. 1.

El sistema ha demostrado mejoras significativas con respecto a los métodos estadísticos tradicionales, refinando continuamente sus capacidades de detección con cada anomalía verificada, lo que lo hace especialmente valioso para la supervisión reglamentaria, donde los costes de verificación son significativos. Este enfoque adaptativo ha abordado el reto de los patrones de datos cambiantes a lo largo del tiempo, maximizando la utilidad de las anomalías previamente verificadas para mejorar la precisión de la detección en el futuro.

En otra aplicación digna de mención, un banco implantó un sistema integrado de detección de anomalías que combinaba datos históricos sobre el comportamiento de los clientes con algoritmos avanzados de aprendizaje automático para identificar transacciones potencialmente fraudulentas. El sistema controlaba los patrones de las transacciones para detectar desviaciones del comportamiento establecido de los clientes, como cambios geográficos repentinos en la actividad o volúmenes de gasto atípicos.. 5.

Esta implantación es especialmente digna de mención, ya que ejemplifica el paso de la prevención del fraude reactiva a la proactiva. Según se informa, el sector financiero británico recuperó aproximadamente el 18% de las pérdidas potenciales gracias a sistemas similares de detección de anomalías en tiempo real implantados en todas las operaciones bancarias. Este planteamiento permitió a las entidades financieras detener inmediatamente las transacciones sospechosas y señalar las cuentas que debían investigarse más a fondo, con lo que se evitaron pérdidas financieras sustanciales antes de que se materializaran.. 3

Los investigadores desarrollaron y evaluaron un algoritmo de detección de anomalías basado en el aprendizaje automático y diseñado específicamente para validar datos de investigación clínica en múltiples registros de neurociencia. El estudio demostró la eficacia del algoritmo en la identificación de patrones anómalos en los datos resultantes de falta de atención, errores sistemáticos o fabricación deliberada de valores. 4.

Los investigadores evaluaron varias métricas de distancia y descubrieron que una combinación de cálculos de distancia de Canberra, Manhattan y Mahalanobis proporcionaba un rendimiento óptimo. La aplicación alcanzó una sensibilidad de detección superior al 85% cuando se validó con conjuntos de datos independientes, lo que la convierte en una herramienta valiosa para mantener la integridad de los datos en la investigación clínica. Este caso ilustra cómo la detección de anomalías contribuye a la medicina basada en pruebas, garantizando la máxima calidad posible de los datos en ensayos clínicos y registros.. 4.

El sistema demostró su aplicabilidad universal, lo que sugiere una posible implementación en otros sistemas de captura electrónica de datos (CDE) más allá de los utilizados en los registros neurocientíficos originales. Esta adaptabilidad pone de relieve la transferibilidad de los enfoques de detección de anomalías bien diseñados entre diferentes plataformas de gestión de datos sanitarios.

Fabricación

Las empresas manufactureras han implantado sofisticados sistemas de detección de anomalías basados en visión artificial para identificar defectos en las piezas fabricadas. Estos sistemas examinan miles de componentes similares en las líneas de producción, utilizando algoritmos de reconocimiento de imágenes y modelos de aprendizaje automático entrenados en grandes conjuntos de datos que contienen tanto ejemplos defectuosos como no defectuosos.. 3

La aplicación práctica de estos sistemas representa un avance significativo con respecto a los procesos de inspección manuales. Al detectar incluso las desviaciones más pequeñas de las normas establecidas, estos sistemas de detección de anomalías pueden identificar defectos potenciales que de otro modo pasarían desapercibidos. Esta capacidad es especialmente crítica en sectores en los que el fallo de un componente puede provocar resultados catastróficos, como la fabricación aeroespacial, donde una sola pieza defectuosa podría contribuir a un accidente aéreo..

Además de la inspección de componentes, los fabricantes han ampliado la detección de fallos a las propias máquinas. Estas implementaciones supervisan continuamente parámetros de funcionamiento como la temperatura del motor y los niveles de combustible para identificar posibles averías antes de que provoquen paradas de producción o riesgos para la seguridad..

Organizaciones de todos los sectores han implantado sistemas de detección de anomalías basados en el aprendizaje profundo para transformar su enfoque de la gestión del rendimiento de las aplicaciones. A diferencia de los métodos de monitorización tradicionales, que reaccionan a los problemas después de que hayan impactado en las operaciones, estas implementaciones permiten identificar posibles problemas críticos.

Un aspecto importante de la aplicación se refiere a la correlación de diferentes flujos de datos con métricas clave de rendimiento de la aplicación. Estos sistemas se entrenan con grandes conjuntos de datos históricos para reconocer patrones y comportamientos indicativos del funcionamiento normal de las aplicaciones. Cuando se producen desviaciones, los algoritmos de detección de anomalías identifican posibles problemas antes de que se conviertan en interrupciones del servicio.

La implementación técnica aprovecha la capacidad de los modelos de aprendizaje automático para correlacionar automáticamente los datos de diversas métricas de rendimiento, lo que permite una identificación más precisa de la causa raíz que los enfoques tradicionales de supervisión basados en umbrales. Los equipos de TI que utilizan estos sistemas pueden diagnosticar y abordar los problemas emergentes con mayor rapidez, lo que reduce significativamente el tiempo de inactividad de las aplicaciones y su impacto en el negocio.

ES

Las implementaciones de seguridad informática de detección de anomalías se centran en la supervisión continua del tráfico de red y los patrones de comportamiento de los usuarios para identificar signos sutiles de intrusión o actividad anormal que podrían eludir las medidas de seguridad tradicionales. Estos sistemas analizan los patrones de tráfico de la red, el comportamiento de acceso de los usuarios y los intentos de acceso al sistema para detectar posibles amenazas a la seguridad.

Las implementaciones son especialmente eficaces para identificar nuevos patrones de ataque que los sistemas de detección basados en firmas podrían no detectar. Al establecer comportamientos de referencia para usuarios y sistemas, la detección de anomalías puede señalar actividades que se desvían de estas normas, indicando potencialmente una violación de la seguridad en curso. Esta capacidad hace de la detección de anomalías un componente esencial de las arquitecturas modernas de seguridad informática, complementando las medidas preventivas tradicionales.3.

De estos estudios de casos se desprenden varios enfoques de aplicación comunes. Las organizaciones suelen utilizar una combinación de estadísticas descriptivas y técnicas de aprendizaje automático, con métodos específicos elegidos en función de las características de los datos y la naturaleza de las posibles anomalías.. 2.

Conclusión

Estos estudios de casos reales demuestran el valor práctico de la detección de valores atípicos y anomalías en diversos sectores. Desde la prevención del fraude financiero a la validación de datos sanitarios, pasando por el control de calidad de la producción o la supervisión de sistemas informáticos, las organizaciones han implantado con éxito metodologías de detección cada vez más sofisticadas para identificar patrones inusuales que merece la pena investigar.

La evolución de los enfoques puramente estadísticos a los sistemas de detección de anomalías basados en inteligencia artificial representa un avance significativo en capacidad, ya que permite una identificación más precisa de patrones anómalos complejos y reduce los falsos positivos. A medida que estas tecnologías vayan madurando y surjan más casos prácticos, cabe esperar que se perfeccionen las estrategias de implantación y se amplíen a otros ámbitos de aplicación.

La ciencia de datos moderna recomienda un enfoque híbrido para tratar los valores atípicos, combinando la precisión estadística con la inteligencia contextual del aprendizaje automático:

  1. Utilización de métodos estadísticos tradicionales para una exploración inicial de los datos
  2. Empleo de algoritmos avanzados de ML para análisis más sofisticados
  3. Mantener una vigilancia ética contra el sesgo de exclusión
  4. Desarrollar una comprensión específica de lo que constituye una anomalía

Al igual que Gladwell nos invita a ver el éxito como un fenómeno complejo influido por la cultura, la oportunidad y el momento oportuno, la ciencia de datos moderna nos insta a ver los valores atípicos no como meros errores, sino como señales importantes en un contexto más amplio.

Aceptar los valores atípicos de la vida

Al igual que la ciencia de datos ha pasado de ver los valores atípicos como meros errores a reconocerlos como fuentes de información valiosa, nosotros también debemos cambiar nuestra forma de ver las carreras no convencionales, es decir, pasar del simple análisis numérico a una comprensión más profunda y contextual del éxito.

El éxito, en cualquier campo, surge de la intersección única de talento, experiencia acumulada, redes de contactos y contexto cultural. Al igual que los modernos algoritmos de aprendizaje automático, que ya no eliminan los valores atípicos sino que buscan comprenderlos, nosotros también debemos aprender a ver valor en las trayectorias más raras.

Fabio Lauria

CEO y Fundador | Electe

CEO de Electe, ayudo a las PYME a tomar decisiones basadas en datos. Escribo sobre inteligencia artificial en el mundo empresarial.

Más populares
Regístrate para recibir las últimas noticias

Reciba semanalmente noticias e información en su buzón
. ¡No se lo pierda!

¡Gracias! ¡Tu envío ha sido recibido!
¡Ups! Algo salió mal al enviar el formulario.