ACCIDENTES DE TRÁNSITO EN PERÚ (2021 - 2022)
ANÁLISIS CON PYTHON Y POWER BI
AUTOR: DANNY TURPO CONDORI
INTRODUCCIÓN
La capacidad de recolectar, procesar y analizar grandes volúmenes de datos se ha convertido en una habilidad esencial para organizaciones y gobiernos, para generar estrategias de acción frente a problemáticas. Herramientas como Python y Power BI juegan un papel crucial en este proceso, ofreciendo la capacidad para transformar datos en información significativa y procesable.
Python con sus distintas bibliotecas y módulos para análisis de datos, permite realizar tareas complejas de limpieza, manipulación y modelado. En el contexto del presente artículo, Python fue fundamental en la limpieza y preprocesamiento de los datos utilizados, eliminando inconsistencias y estructurando la información para su posterior análisis. Power BI por otro lado, como plataforma facilita la visualización y el análisis interactivo de datos. Su capacidad para crear dashboard dinámicos y detallados permite al usuario explorar los datos desde múltiples perspectivas.y tomar decisiones informadas basadas en datos, para este artículo, Power BI fue utilizado para crear un dashboard que muestra los principales indicadores de los accidentes de tránsito en Perú, proporcionando una visión clara y concisa de los datos.
El análisis de accidentes de tránsito en Perú es una tarea crítica para entender y mitigar los factores que contribuyen a estos incidentes. Mediante el uso de Python y Power BI, se ha realizado un análisis de accidentes, revelando insights valiosos sobre la frecuencia, caracteristicas y causas de estos eventos. Se realiza primero una limpieza de datos y luego la creación del dashboard en Power BI.
El link del proyecto lo puede encontrar aquí.
PARTE 1: LIMPIEZA DE DATOS CON PYTHON
El primer paso para el análisis debe ser la preparación de los datos, que incluye la obtención, limpieza y la exportación de los datos listos en un archivo. La limpieza es una tarea crucial, al no estar debidamente tratados, el análisis puede ser inexacto, lo que conlleva a la toma de decisiones equivocadas. En esta primera parte realizamos la exploración, detección, correción o eliminación de datos inválidos, es decir se hace el enfoque en reemplazar datos nulos o inválidos, cambiar tipos de variables, eliminación de datos innecesarios y crear nuevas columnas.
Figura 1. DataFrames usados para el análisis y limpieza.
Figura 2. Ejemplo de tratamiento de valores nulos.
Cuando exploramos los datos, validamos si la información se alinea con los objetivos del negocio o proyecto, lo cual nos brinda un mayor panorama de lo que se tiene, se puede realizar análisis descriptivos que ayudan a determinar lo que esta sucediendo, apoyandoce de librerias propios de Python. PANDAS es una de las librerias mas usadas, que nos facilita mucho el manejo de datos, lectura de archivos o bases de datos de multiples fuentes, ralizar operaciones entre las columnas, ordenar, agrupar, dividir. PANDAS brinda un apoyo importante a la hora de detectar valores nulos, outliers, duplicados, etc. NUMPY, por su parte nos permite crear todo tipo de estructuras numéricas, múltiples dimensiones, permite transformarlas, operar aritméticamente, filtrar e incluso para inicializar datos aleatorios.
Figura 3. Ejemplo de tratamiento de valores nulos con condición.
Figura 4. Ejemplo de cambio de variable, tipo fecha y creación de nueva columna.
Figura 5. Exportación de la data tratada.
PARTE 2: DASHBOARD CON POWER BI
Con la data tratada y limpia, el siguiente paso es el desarrollo de un dashboard, una herramienta de gestión con la que se pueda monitorizar, analizar y mostrar de manera visual indicadores clave, métricas y datos fundamentales para hacer seguimiento del estado de un proceso, empresa, etc. POWER BI es una colección de servicios de software, aplicaciones y conectores que funcionan conjuntamente para convertir origenes de datos sin relación entre sí en información coherente, interactiva y atractiva visualmente.
Antes de iniciar es necesario realizar una planificación y diseño para garantizar que la selección de gráficos y visualizaciones sean las adecuadas para transmitir la información de manera eficaz. Es recomendable tener en cuenta lo siguiente:
Figura 6. Dashboard resumen de análisis de accidentes de tránsito.
POWER BI se puede conectar a diferentes origenes de datos, como archivos locales, bases de datos, servicios en la nube, entre otros. Con la opción de "Obtener datos" en las opciones de POWER BI, se elige el origen de datos al que se desea conectar. Una vez preparado y obtenido los datos, se empieza a crear una narrativa visual que contextualice los datos, resaltar patrones, tendencias, comunicar insights clave. De esta forma se permite a los usarios presentar la data de manera que sea fácil de enteder y que genere un impacto. Para esto la elección de un determinado gráfico para la representación es importante, así como tener en cuenta el objetivo del análisis, número y tipo de variables.
GRÁFICO DE COLUMNAS Y BARRAS
El gráfico de barras es usado para representar datos categóricos y comparar categorias o valores a lo largo de un eje. Ideal para comparar cantidades enter diferentes categorías o realizar un seguimiento de tendencias a lo largo del tiempo. Un subtipo de este gráfico de barras es el de barras apiladas, útil para comparar contribución de diferentes categorías a un valor total.
El gráfico de columnas tiene las barras dispuestas en posición vertical, teniendo el mismo propocito que el gráfico anterior, aunque puede ser más adecuada en ciertos contextos.
Figura 7. Gráfico de barras que muestra la comparación de clases de siniestros de tránsito.
Figura 8. Gráfico de columnas apiladas y gráfico de columnas.
GRÁFICO DE LÍNEAS
Una excelente opción para mostrar tendencias a lo largo del tiempo. Utilizado para representar series temporales, como ventas mensuales, financieros o cualquier conjunto de datos que tenga dimensión de tiempo, facilitando la identificación de patrones y cambios en los valores a lo largo del tiempo.
Figura 9. Gráficode lineas mostrando los accidentes por mes.
GRÁFICO DE SECTORES Y ANILLOS
Los gráficos de sectores, se utilizan para representar partes de un todo. Ideal para mostrar la distribución porcentual de categorías dentro de un conjunto de datos. Debe ser usado con precaución ya que puede ser dificíl de interpretar cuando se tienen muchas categorías cuando las diferencias porcentuales son pequeños. Los gráficos de anillos es una variante del gráfico de sectores que incluye un agujero en el centro.
Figura 10. Gráfico de anillo, muestra el tipo de via, característica de via y condición del clima.
TARGETAS
Pueden ser targetas de un único número o tarjetas de varias filas, en la primera de ellas, se muestra un único valor representativo de lo que se está analizando, suele ser una cifra total. En las segundasse muestran uno o varios datos en diferentes filas.
Figura 11. Tarjetas que muestran la cantidad de accidentes según rangos de horarios.
TABLAS Y MAPAS COROPLÉTICOS
Una tabla es una cuadrícula que contiene datos relacionados en una serie lógica de filas y colmunas. Puede contener encabezados y una fila para los totales. Fucnionan bien con comparaciones cuantitativas en las que está mirando muchos valores par una única categoría.
Por otra parte un mapa coropléticos usa sombreado, tintes o patrones para mostrar las diferencias de un valor en proporción en una ubicación geográfica o región. Puede mostrar rápidamente estas diferencias con sombreados, por ejemplo, que van del claro (valores menos frecuentes o inferiores) a oscuros (mas frecuentes o superiores).
Figura 12. Tabla con información de fallecidos, lecionados y vehículos dañados, por departamento.
Figura 13. Mapa coroplético, muestra cantidad de accidentes de tránsito por departamento.
SEGMENTADOR DE DATOS
Es una forma útil de filtrar la información y centrarse en una parte específica del modelo sémantico. Permiten seleccionar exactamente qué valores se van a mostrar en los objetos visuales.
Figura 14. Segmentadores de datos para seleccionar año y departamento para el análisis.
NAVEGADORES
Con los navegadores integrados en POWER BI, se puede crear rápidamente experiencias de navegación de páginas y marcadores con tan solo unos clics. El navegador de páginas se sincroniza automáticamente con las páginas del informe, por lo que, los títulos de los botones coinciden con los nombres de las páginas, al igual que el orden.
Figura 15. Navegadores entre páginas del informe.
PARTE 3: ACCIDENTES DE TRÁNSITO EN PERÚ 2021-2022
El estudio de la data sobre accidentes de tránsito resulta crucial para comprender y realizar acciones que ayuden a mitigar y reducir los riesgos asociados al transporte. En Perú, como en muchos países, los accidentes de tránsito generan un importante número de muertes y lesiones. Al identificar patrones, factores de riesgo o áreas geograficas con mayor incidencia, permite desarrollar políticas de seguridad vial mas efectivas, mejorar la infraestructura, y educar a la población sobre prácticas seguras.
Figura 16. Página RESUMEN del informe.
Los indicadores clave como el total de fallecidos, lesionados, número de siniestros proporcionan un entendimiento básico de la magnitud y severidad de los accidentes de tránsito en el país. Siendo Lima la ciudad que concentra la mayor parte de estos tanto en 2021 y 2022, en el mapa coroplético permite visualizar la concentración de accidentes a nivel nacional, lo que ayuda a identificar las zonas donde se necesita mejorar la infraestructura o implementar medidas de seguridad ambiental.
Figura 17. Página SINIESTROS del informe.
El análisis de accidentes por rango de hora ayuda a entender los momentos del día en que ocurren más accidentes, lo que puede estar relacionado con el tráfico, visibilidad, y otros factores, ocurriendo la mayor cantidada de accidentes entre las 18:00 a 23:59 horas. Las circunstancias mas comunes que rodean a los accidentes son de tipo choque, seguido de los despistes, dandose la mayor parte de estos en zonas rurales. El gráfico de lineas muestra la evolución mensual de fallecidos, lesionados, y vehiculos dañados, mostrando una vista sobre como cambian estos indicadores a lo largo del tiempo, lo que apoya la monitorización de la efectividad de las medidas de seguridad implementadas.
Figura 18. Página VEHICULOS del informe.
Las motociclestas son el tipo de vehículos con mayor incidencia en accidentes de tránsito, seguido de los automóviles; tambíen analizando la modalidad de transporte, el tipo particular lidera la lista de accidentes, seguido de vehículos de carga, estas identificaciones permiten orientar las regulaciones y campañas de seguridad según el tipo de vehículo más riesgoso.
Figura 19. Página USUARIOS del informe.
El análisis de los tipos de licencias y los rangos de edad de los involucrados sirven de apoyo para identificar grupos de riesgo, lo cual guía las regulaciones e iniciativas de formación para conductores, enfocandoce en aquellos con mayor incidencia de accidentes.
CONCLUSIONES
La información estadística da cuenta de las cifras de los siniestros viales en los años 2021 - 2022, se pueden identicar los siguientes problemas:
Promover el diseño, construcción y adecuación de vias públicas seguras, de vehículos aptos para la circulación segura y mejora de los estándares de evaluación para el otorgamiento de licencias de conducir.
BIBLIOGRAFÍA
Comentarios
Registrate o Inicia Sesión para comentar y obtener Cursos de pago gratis