Del Caos a la Claridad
La odisea de transformar los datos abiertos de salud en Uruguay en un recurso para la toma de decisiones.
Un proyecto del Grupo de Trabajo “Datos y Analítica de Datos” de SUSADI
El Potencial Oculto y el Desafío Real
Los datos públicos de salud existen, pero usarlos para análisis es como intentar leer un libro con las páginas desordenadas.
Estructuras para Ver, no para Analizar
Formatos con celdas combinadas y múltiples hojas que impiden el procesamiento automático.
Nombres y Códigos Inconsistentes
La misma institución aparecía con múltiples nombres, dificultando el seguimiento y la comparación.
Saltos en el Tiempo y Vacíos
Discontinuidades en los registros anuales que complican el análisis de tendencias a largo plazo.
Sin "Manual de Instrucciones"
Falta de metadatos y diccionarios que expliquen qué significa cada variable, su origen y alcance.
Nuestra Misión: Ordenar la Biblioteca
Adoptamos un enfoque metódico para convertir datos inutilizables en un activo valioso y reutilizable.
Selección Estratégica
Identificamos 2 datasets clave del MSP con alto potencial analítico.
Limpieza y Estandarización
Unificamos nombres de instituciones y normalizamos formatos de fecha a ISO.
Reestructuración a "Tidy"
Convertimos las tablas a un formato ordenado: 1 fila por observación, 1 columna por variable, 1 valor por celda.
La Transformación: Antes y Después
Visualiza la diferencia entre una estructura pensada para imprimir y una diseñada para analizar.Herramientas utilizadas: R, Python, Jupyter, Tableau.
ANTES: Datos Caóticos
Múltiples tablas, celdas combinadas y años en columnas. Imposible para un programa leerlo correctamente.
[Hoja: 2020]
> Institución A | Afiliados | ... |
> Institución B | 15000 | ... |
[Hoja: 2021]
> Institucion A | 12500 | ... |
> Instit. B | 15200 | ... |
DESPUÉS: Datos "Tidy"
Una única tabla relacional, limpia y lista para ser analizada, visualizada y reutilizada.
| institucion_id | anio | afiliados |
|------------------|------|-----------|
| institucion_a | 2020 | 12345 |
| institucion_b | 2020 | 15000 |
| institucion_a | 2021 | 12500 |
| institucion_b | 2021 | 15200 |
El Impacto: De Datos Inertes a Conocimiento Activo
Este trabajo no solo limpia datos, sino que desbloquea un valor inmenso para todo el ecosistema de salud.
Ahorro de Tiempo y Recursos
80%
Reducción estimada del tiempo que un analista dedica a la limpieza de datos antes de poder empezar a investigar.
Mejora de la Confianza
95%
Nivel de estandarización alcanzado en los nombres de instituciones, permitiendo análisis más robustos y fiables.
Democratización del Acceso
📈
Aumento significativo del potencial de reutilización de los datos al estar en un formato accesible.
Visualizando el Potencial en Acción
Escanea el código QR o haz clic en las imágenes para explorar los datos de forma interactiva en una nueva pestaña.
Abrir Dashboard InteractivoEl Futuro es Abierto y Estructurado
Nuestras recomendaciones para fortalecer el ecosistema de datos de salud en Uruguay.
1. Publicar en Formato "Tidy"
Priorizar la estructura para análisis. Una variable por columna, una observación por fila.
2. Incluir "Diccionarios" de Datos
Acompañar cada dataset con metadatos claros que describan cada variable, su origen y significado.
3. Estandarizar Nombres y Códigos
Utilizar identificadores únicos y consistentes para facilitar la vinculación entre datasets.
4. Mantener Trazabilidad y Versionado
Indicar la versión del dataset y los cambios respecto a versiones anteriores. Usar nombres de archivo claros.
5. Documentar el Proceso de Producción
Explicar cómo se originaron los datos y si fueron modificados, imputados o agregados.
6. Facilitar el Acceso Programático
Publicar datos en repositorios accesibles por URL (GitHub, CKAN) y considerar el uso de APIs.
7. Incluir Ejemplos y Guías de Uso
Ofrecer notebooks o scripts (ej. en R o Python) que demuestren cómo cargar y trabajar con los datos para reducir la barrera de entrada a nuevos usuarios.