Publicación: Detección de anomalías con técnicas no supervisadas de aprendizaje automático: aplicación a los Registros Individuales de Prestación de Servicios de Salud (RIPS)
Autores
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor
Fecha
Citación
Título de serie/ reporte/ volumen/ colección
Es Parte de
Resumen en español
El estudio se centra en el análisis de grandes volúmenes de datos sanitarios en Colombia, partiendo de los Registros Individuales de Prestación de Servicios de Salud (RIPS) como fuente oficial. Para mejorar la calidad y confiabilidad de estos datos, se han desarrollado dos productos clave: una metodología de validación que aprovecha los resultados de los métodos no supervisados de detección de anomalías y mide su impacto en clasificadores supervisados, y un proceso de minería de datos que limpia, consolida y estructura los RIPS en un dataset preparado para la implementación de modelos de machine learning. Con estos dos aportes se robustecen significativamente los procesos de análisis y auditoría de la información en salud. Los métodos de detección de anomalías no supervisados implementados en este trabajo corresponden a Local Outlier Factor (LOF), Isolation Forest (IF) y Autoencoder (AE). Cada uno de estos métodos proporciona una perspectiva diferente para detectar anomalías: LOF se fundamenta en la densidad local de los datos, reconociendo como anómalos aquellos puntos cuya densidad varía considerablemente de la de sus vecinos; IF emplea árboles de aislamiento para separar observaciones, consiguiendo identificar anomalías debido a su sencillez para ser aislados en las primeras fases del árbol y por último los Autoencoders que se basan en redes neuronales densas dise˜nadas para aprender eficazmente la reconstrucción de la entrada original. Se presenta también una metodología que permite validar la eficacia de las anomalías detectadas mediante métodos no supervisados fundamentándose en la premisa que los métodos de clasificación de aprendizaje automático tendrían un mejor desempeño en su tarea de clasificación si se realiza con datos sin anomalías, en este caso se implementan los siguientes algoritmos de clasificación (Regresión Logística (LR), Support Vector Classifier (SVC), K-Nearest Neighbors (KNN), Arbol de Decisión (DT), Random Forest (RF) y AdaBoost (AB)) comparando el desempeño de la métrica Area bajo la curva ROC primero antes de la detección y una segunda etapa posterior a la detección y eliminación de estos datos anómalos. Finalmente, se plantea un proceso de minería de datos orientado a la construcción de un dataset consolidado a partir de los Registros Individuales de Prestación de Servicios de Salud (RIPS), que permita implementar la metodología propuesta e identificar posibles registros anómalos según el enfoque definido.

