Codea Blog  

Blog Details

ACCIDENTES DE TRÁNSITO EN PERÚ (2021 - 2022) - ANÁLISIS CON PYTHON Y POWER BI

ACCIDENTES DE TRÁNSITO EN PERÚ (2021 - 2022)

ANÁLISIS CON PYTHON Y POWER BI

AUTOR: DANNY TURPO CONDORI

 

INTRODUCCIÓN

La capacidad de recolectar, procesar y analizar grandes volúmenes de datos se ha convertido en una habilidad esencial para organizaciones y gobiernos, para generar estrategias de acción frente a problemáticas. Herramientas como Python y Power BI juegan un papel crucial en este proceso, ofreciendo la capacidad para transformar datos en información significativa y procesable.

Python con sus distintas bibliotecas y módulos para análisis de datos, permite realizar tareas complejas de limpieza, manipulación y modelado. En el contexto del presente artículo, Python fue fundamental en la limpieza y preprocesamiento de los datos utilizados, eliminando inconsistencias y estructurando la información para su posterior análisis. Power BI por otro lado, como plataforma facilita la visualización y el análisis interactivo de datos. Su capacidad para crear dashboard dinámicos y detallados permite al usuario explorar los datos desde múltiples perspectivas.y tomar decisiones informadas basadas en datos, para este artículo, Power BI fue utilizado para crear un dashboard que muestra los principales indicadores de los accidentes de tránsito en Perú, proporcionando una visión clara y concisa de los datos.

El análisis de accidentes de tránsito en Perú es una tarea crítica para entender y mitigar los factores que contribuyen a estos incidentes. Mediante el uso de Python y Power BI, se ha realizado un análisis de accidentes, revelando insights valiosos sobre la frecuencia, caracteristicas y causas de estos eventos. Se realiza primero una limpieza de datos y luego la creación del dashboard en Power BI.

El link del proyecto lo puede encontrar aquí.

 

PARTE 1: LIMPIEZA DE DATOS CON PYTHON

El primer paso para el análisis debe ser la preparación de los datos, que incluye la obtención, limpieza y la exportación de los datos listos en un archivo. La limpieza es una tarea crucial, al no estar debidamente tratados, el análisis puede ser inexacto, lo que conlleva a la toma de decisiones equivocadas. En esta primera parte realizamos la exploración, detección, correción o eliminación de datos inválidos, es decir se hace el enfoque en reemplazar datos nulos o inválidos, cambiar tipos de variables, eliminación de datos innecesarios y crear nuevas columnas.

 

Figura 1. DataFrames usados para el análisis y limpieza.

Descripción de la imagen

Figura 2. Ejemplo de tratamiento de valores nulos.

Descripción de la imagen

 

Cuando exploramos los datos, validamos si la información se alinea con los objetivos del negocio o proyecto, lo cual nos brinda un mayor panorama de lo que se tiene, se puede realizar análisis descriptivos que ayudan a determinar lo que esta sucediendo, apoyandoce de librerias propios de Python. PANDAS es una de las librerias mas usadas, que nos facilita mucho el manejo de datos, lectura de archivos o bases de datos de multiples fuentes, ralizar operaciones entre las columnas, ordenar, agrupar, dividir. PANDAS brinda un apoyo importante a la hora de detectar valores nulos, outliers, duplicados, etc. NUMPY, por su parte nos permite crear todo tipo de estructuras numéricas, múltiples dimensiones, permite transformarlas, operar aritméticamente, filtrar e incluso para inicializar datos aleatorios.

Figura 3. Ejemplo de tratamiento de valores nulos con condición.

Descripción de la imagen

Figura 4. Ejemplo de cambio de variable, tipo fecha y creación de nueva columna.

Descripción de la imagen

Figura 5. Exportación de la data tratada.

Descripción de la imagen

 

PARTE 2: DASHBOARD CON POWER BI

Con la data tratada y limpia, el siguiente paso es el desarrollo de un dashboard, una herramienta de gestión con la que se pueda monitorizar, analizar y mostrar de manera visual indicadores clave, métricas y datos fundamentales para hacer seguimiento del estado de un proceso, empresa, etc. POWER BI es una colección de servicios de software, aplicaciones y conectores que funcionan conjuntamente para convertir origenes de datos sin relación entre sí en información coherente, interactiva y atractiva visualmente.

Antes de iniciar es necesario realizar una planificación y diseño para garantizar que la selección de gráficos y visualizaciones sean las adecuadas para transmitir la información de manera eficaz. Es recomendable tener en cuenta lo siguiente:

  • Simplicidad: mantener un diseño limpio y minimalista.
  • Jerarquía visual: organizar los elementos de manera jerárquica, destacando la información mas relevante y agrupando los elementos relacionados para una compresión intuitiva.
  • Usabilidad: debe ser fácil de usar y navegar.
  • Clariada: priorizar la legibilidad en las visualizaciones, evitando elementos innecesarios.
  • Interactividad: que permita a los usuarios explorar los datos de manera profunda y personalizada.
  •  

Figura 6. Dashboard resumen de análisis de accidentes de tránsito.

Descripción de la imagen

 

POWER BI se puede conectar a diferentes origenes de datos, como archivos locales, bases de datos, servicios en la nube, entre otros. Con la opción de "Obtener datos" en las opciones de POWER BI, se elige el origen de datos al que se desea conectar. Una vez preparado y obtenido los datos, se empieza a crear una narrativa visual que contextualice los datos, resaltar patrones, tendencias, comunicar insights clave. De esta forma se permite a los usarios presentar la data de manera que sea fácil de enteder y que genere un impacto. Para esto la elección de un determinado gráfico para la representación es importante, así como tener en cuenta el objetivo del análisis, número y tipo de variables.

 

GRÁFICO DE COLUMNAS Y BARRAS

El gráfico de barras es usado para representar datos categóricos y comparar categorias o valores a lo largo de un eje. Ideal para comparar cantidades enter diferentes categorías o realizar un seguimiento de tendencias a lo largo del tiempo. Un subtipo de este gráfico de barras es el de barras apiladas, útil para comparar contribución de diferentes categorías a un valor total.

El gráfico de columnas tiene las barras dispuestas en posición vertical, teniendo el mismo propocito que el gráfico anterior, aunque puede ser más adecuada en ciertos contextos.

 

Figura 7. Gráfico de barras que muestra la comparación de clases de siniestros de tránsito.

Descripción de la imagen

Figura 8. Gráfico de columnas apiladas y gráfico de columnas.

Descripción de la imagen

 

GRÁFICO DE LÍNEAS

Una excelente opción para mostrar tendencias a lo largo del tiempo. Utilizado para representar series temporales, como ventas mensuales, financieros o cualquier conjunto de datos que tenga dimensión de tiempo, facilitando la identificación de patrones y cambios en los valores a lo largo del tiempo.

 

Figura 9. Gráficode lineas mostrando los accidentes por mes.

Descripción de la imagen

 

GRÁFICO DE SECTORES Y ANILLOS

Los gráficos de sectores, se utilizan para representar partes de un todo. Ideal para mostrar la distribución porcentual de categorías dentro de un conjunto de datos. Debe ser usado con precaución ya que puede ser dificíl de interpretar cuando se tienen muchas categorías  cuando las diferencias porcentuales son pequeños. Los gráficos de anillos es una variante del gráfico de sectores que incluye un agujero en el centro.

 

Figura 10. Gráfico de anillo, muestra el tipo de via, característica de via y condición del clima.

Descripción de la imagen

 

TARGETAS

Pueden ser targetas de un único número o tarjetas de varias filas, en la primera de ellas, se muestra un único valor representativo de lo que se está analizando, suele ser una cifra total. En las segundasse muestran uno o varios datos en diferentes filas.

 

Figura 11. Tarjetas que muestran la cantidad de accidentes según rangos de horarios.

Descripción de la imagen

 

TABLAS Y MAPAS COROPLÉTICOS

Una tabla es una cuadrícula que contiene datos relacionados en una serie lógica de filas y colmunas. Puede contener encabezados y una fila para los totales. Fucnionan bien con comparaciones cuantitativas en las que está mirando muchos valores par una única categoría.

Por otra parte un mapa coropléticos usa sombreado, tintes o patrones para mostrar las diferencias de un valor en proporción en una ubicación geográfica o región. Puede mostrar rápidamente estas diferencias con sombreados, por ejemplo, que van del claro (valores menos frecuentes o inferiores) a oscuros (mas frecuentes o superiores).

 

Figura 12. Tabla con información de fallecidos, lecionados y vehículos dañados, por departamento.

Descripción de la imagen

Figura 13. Mapa coroplético, muestra cantidad de accidentes de tránsito por departamento.

Descripción de la imagen

 

SEGMENTADOR DE DATOS

Es una forma útil de filtrar la información y centrarse en una parte específica del modelo sémantico. Permiten seleccionar exactamente qué valores se van a mostrar en los objetos visuales.

 

Figura 14. Segmentadores de datos para seleccionar año y departamento para el análisis.

Descripción de la imagen

 

NAVEGADORES

Con los navegadores integrados en POWER BI, se puede crear rápidamente experiencias de navegación de páginas y marcadores con tan solo unos clics. El navegador de páginas se sincroniza automáticamente con las páginas del informe, por lo que, los títulos de los botones coinciden con los nombres de las páginas, al igual que el orden.

 

Figura 15. Navegadores entre páginas del informe.

Descripción de la imagen

 

PARTE 3: ACCIDENTES DE TRÁNSITO EN PERÚ 2021-2022

El estudio de la data sobre accidentes de tránsito resulta crucial para comprender y realizar acciones que ayuden a mitigar y reducir los riesgos asociados al transporte. En Perú, como en muchos países,  los accidentes de tránsito generan un importante número de muertes y lesiones. Al identificar patrones, factores de riesgo o áreas geograficas con mayor incidencia, permite desarrollar políticas de seguridad vial mas efectivas, mejorar la infraestructura, y educar a la población sobre prácticas seguras.

 

Figura 16. Página RESUMEN del informe.

Descripción de la imagen

 

Los indicadores clave como el total de fallecidos, lesionados, número de siniestros proporcionan un entendimiento básico de la magnitud y severidad de los accidentes de tránsito en el país. Siendo Lima la ciudad que concentra la mayor parte de estos tanto en 2021 y 2022, en el mapa coroplético permite visualizar la concentración de accidentes a nivel nacional, lo que ayuda a identificar las zonas donde se necesita mejorar la infraestructura o implementar medidas de seguridad ambiental.

 

Figura 17. Página SINIESTROS del informe.

Descripción de la imagen

 

El análisis de accidentes por rango de hora ayuda a entender los momentos del día en que ocurren más accidentes, lo que puede estar relacionado con el tráfico, visibilidad, y otros factores, ocurriendo la mayor cantidada de accidentes entre las 18:00 a 23:59 horas. Las circunstancias mas comunes que rodean a los accidentes son de tipo choque, seguido de los despistes, dandose la mayor parte de estos en zonas rurales. El gráfico de lineas muestra la evolución mensual de fallecidos, lesionados, y vehiculos dañados, mostrando una vista sobre como cambian estos indicadores a lo largo del tiempo, lo que apoya la monitorización de la efectividad de las medidas de seguridad implementadas.

 

Figura 18. Página VEHICULOS del informe.

Descripción de la imagen

 

Las motociclestas son el tipo de vehículos con mayor incidencia en accidentes de tránsito, seguido de los automóviles; tambíen analizando la modalidad de transporte, el tipo particular lidera la lista de accidentes, seguido de vehículos de carga, estas identificaciones permiten orientar las regulaciones y campañas de seguridad según el tipo de vehículo más riesgoso. 

 

Figura 19. Página USUARIOS del informe.

Descripción de la imagen

 

El análisis de los tipos de licencias y los rangos de edad de los involucrados sirven de apoyo para identificar grupos de riesgo, lo cual guía las regulaciones e iniciativas de formación para conductores, enfocandoce en aquellos con mayor incidencia de accidentes.

 

CONCLUSIONES

La información estadística da cuenta de las cifras de los siniestros viales en los años 2021 - 2022, se pueden identicar los siguientes problemas:

  • Incumplimiento de los planes nacionales de seguridad vial del país, se necesita fortalecer los entes con la facultad de realizar el seguimiento, monitoreo y supervisión del cumplimiento de las políticas en materia de seguridad vial.
  • Mal estado de la infraestructura vial, permisividad en el ingreso a la circulación de vehículos sin criterios de seguridad e inadecuado sistema de evaluación para la emisión de licencias de conducir.

Promover el diseño, construcción y adecuación de vias públicas seguras, de vehículos aptos para la circulación segura y mejora de los estándares de evaluación para el otorgamiento de licencias de conducir.

 

BIBLIOGRAFÍA

  • Observatorio Nacional de Seguridad Vial (2023, 1 de Noviembre). Información de datos abiertos. Recuperado de: https://www.onsv.gob.pe/datosabiertos
  • Defensoría del Pueblo (2023, Abril). Por una Agencia Nacional de Seguridad Vial. Recuperado de: https://www.defensoria.gob.pe/wp-content/uploads/2023/04/Reporte-Defensorial-de-accidentes-de-tr%C3%A1nsito-N01-Abril-2023.pdf
  • POWER BI (2023, 17 de Mayo). Crear visualizaciones de mapa de formas en Power BI Desktop. Recuperado de: https://learn.microsoft.com/es-es/power-bi/visuals/desktop-shape-map
  • ColorsWall (2023, 30 de Mayo). Dashboard template graph admin colors palette. Recuperado de: https://colorswall.com/es/palette/261147
  • Iconos8 (s.f.). Iconos gratuitos. Web: https://iconos8.es/icons
  • Paletadecolores (s.f.). Generador de paletas de colores. Web: https://paletadecolores.online/

Comentarios

Registrate o Inicia Sesión para comentar y obtener Cursos de pago gratis

function loadurl(){ var val1 = document.getElementById("valor3").value; console.log(val1); if(val1){ window.location = "/comunidad/blog/filtrar/"+val1+"/"} }