Codea Blog  

Blog Details

Análisis de datos paleontológicos y evolución biológica utilizando técnicas de Machine Learning

I. INTRODUCCIÓN

MACHINE LEARING

En las últimas décadas, se ha evidenciado una verdadera "revolución de los datos"  en la forma en que se recopilan, almacenan y analizan, basados en avances tecnológicos, aumento en la capacidad de almacenamiento y la mejora en técnicas de procesamiento. El machine learning, que es un subconjunto de la inteligencia artificial, permite a las máquinas aprender de los datos a través de algoritmos y modelos, donde se pueden identificar patrones, hacer predicciones y tomar decisiones.

 

PALEONTOLOGÍA

Es una ciencia que se basa en la observación meticulosa y el análisis de fósiles y registros geológicos para reconstruir la historia de la vida en la Tierra, así como entender la biodiversidad actual y la distribución de los seres vivos en el planeta, así ha aportado elementos para afirmar la teoría de la evolución de los seres vivos y la deriva de los continentes.

 

II. INTERSECCIÓN DE LA PALEONTOLOGÍA Y EL MACHINE LEARNING

El impacto del machine learning ha sido vasto y se ha sentido en prácticamente todas las disciplinas y sectores. En el caso de la paleontología, se pueden analizar vastos conjuntos de datos paleontológicos, identificando patrones y correlaciones que serían prácticamente imposibles de discernir manualmente. Estos análisis pueden ofrecer nuevas perspectivas sobre la evolución, extinción y diversificación de especies, así como sobre las interacciones ecológicas a lo largo del tiempo geológico.

 

III. TÉCNICAS DE MACHINE LEARNING EN PALEONTOLOGÍA

 

- Clasificación: Uso de algoritmos para categorizar y clasificar fósiles o especies basados en características morfológicas y genéticas.

- Regresión: Predicción de variables continuas, como la edad de un fósil o las condiciones climáticas de una era particular basada en datos paleontológicos.

- Clustering (agrupamiento): Identificación de grupos naturales en conjuntos de datos, como agrupaciones de especies similares o patrones climáticos.

- Reducción de dimensionalidad: Técnicas como el análisis de componentes principales (PCA) para simplificar y visualizar grandes conjuntos de datos paleontológicos.

 

IV. APLICACIONES Y ESTUDIOS DE CASOS

CASO I: Reconocimiento de imágenes de Paleobios bajo microscopio(Yuxuan et.al, 2020).

Contexto y desafío

La mayoría de los fósiles permanecen enterrados en los estratos, la técnica más común utilizada en las investigaciones paleontológicas son los sondajes y muestreo de los cortes finos, donde se pueden observar las características generales únicas y detalles bajo un microscopio óptico, posiblemente logrando determinar ciertos rasgos como  la categoría de paleobios y dilucidar las edades y ambientes en los que existieron.

 

La importancia de estos fósiles radican en ser un indicador de la historia de la evolución biológica y puede utilizarse para la exploración de petróleo, recursos gasíferos y recursos minerales. Sin embargo, la identificación y clasificación de paleobios bajo el microscopio es una tarea complicada y requiere mucho tiempo. Los profesionales deben afrontar operaciones difíciles, una eficiencia de procesamiento lenta y una gran carga de trabajo. Por lo tanto, se exige una técnica de procesamiento avanzada y fácil de usar.

 

Aplicación del Aprendizaje Automático

En este caso, el objetivo es el reconocimiento automático de imágenes bajo un modeo de aprendizaje automático a imágenes paleontológicas encontradas en los sondajes de perforaación de cortes finos vistas al microscopio. Se usaron métodos de preprocesamiento para mejorar las características paleontológicas de las especies de la imagen como SIFT, K-means y SVM obteiendo  un rendimiento y viabilidad prometedora. En consecuencia,  se produce una importante reducción de los costes laborales y de aprendizaje, posibilitando la transferencia de conocimiento por parte de los expertos, y conllevando una gran mejora en la velocidad de identificación paleontológica

 

Imagen 01. Flujograma del procesamiento de imagenes del Caso I.

 

CASO II: Estimación de árboles filogenéticos a partir de matrices de distancias incompletas(Bhattacharjee, 2020)

Contexto y desafío

Los árboles filogenéticos conocidos como árboles evolutivos, representan la historia evolutiva de un grupo de entidades (especies, genes, etc.) que proporcionan información sobre la biología básica, incluido cómo evolucionó la vida, los mecanismos, su función y la estructura evolutiva. Es así, que la ciencia moderna tiene como un objetivo construir el “Árbol de la Vida”: represenatción de las relaciones evolutivas entre todos los organismos de la Tierra.

 

Siendo así, el campo de la filogenética ha usado métodos estadísticos sofisticados y altamente precisos para reconstruir árboles de genes y de especies basados principalmente en métodos de cadena de Markov Monte Carlo (MCMC) y modelos probabilísticos de evolución de secuencias. Sin embargo, muchos de estos métodos no son escalables para analizar conjuntos de datos filogenómicos que contienen cientos o miles de genes y taxones. Por lo tanto, se requiere desarrollar métodos rápidos pero razonablemente precisos para el análisis filogenómicos a gran escala.

 

Aplicación del Aprendizaje Automático

En este caso, se proponen 2 métodos basados en aprendizaje automático para aprender de la distribución de datos filogenéticos y lograr imputar entradas faltantes. Estos métodos son:

 

Factorización matricial (MF): 

Donde se tiene entradas en una matriz de distancias para la estimación filogenética. Si no se conoce la distancia entre dos taxones A y B, puede predecir la distancia analizando sus distancias con otros taxones que utilizan el concepto de factorización matricial.

 

Método de  codificadores automáticos (AE)

Es un tipo de red neuronal artificial que aprende a copiar su entrada a su salida. Esto se logra aprendiendo codificaciones de datos eficientes sin supervisión para recrear la entradas.

 

Imagen 02. Resultados de los arboles genéticos estimados por los métodos empleados en el Caso II.

 

 

CASO III: clasificar los simios existentes e interpretar la morfología dental del último ancestro común chimpancé-humano(Bhattacharjee, 2020)

Contexto y Desafío

Durante décadas, los paleontólogos han utilizado al chimpancé como modelo para el último ancestro común humano porque es el pariente primate vivo más cercano. Pero las deducciones se basan en evidencia fósil limitada ya que se tiene un escaso conocimiento sobre la morfología de estos primeros hominoides, además que no se conocen fósiles del último ancestro común chimpancé-humano, existiendo muy pocos fósiles tempranos del lado humano y ninguno más antiguo que el Pleistoceno medio para el chimpancé. 

 

Aplicación del Aprendizaje Automático

En este caso, se clasificaron los simios existentes, tieniendo en cuenta la morfología dental. Se usaron 3 modelos: Función discriminante lineal (LDA), máquinas de vectores de soporte (SVM) y bosque aleatorio (RF). Los datos de entrada fueron la longitud de los dientes, el tamaño en dos direcciones diferentes y cómo se veían éstos, teniendo en cuenta la información genética. Con base en esta información, el modelo aprendió a hacer estas mediciones y se buscaron qué similitudes que podrían dilucidar las diferencias entre las distintas especies de simios, descubriendo que las proporciones dentales de los homínidos del Mioceno son más similares a la de los gorilas actuales.

 

Imagen 03. Resultados del PCA por límites de clasificación del Aprendizaje Automático del Caso III.

 

V. FUTURO DEL MACHINE LEARNING EN PALEONTOLOGÍA

En el ámbito contemporáneo, el potencial transformador de las técnicas de machine learning en el análisis y la interpretación de datos paleontológicos pueden llevar a una revolucionar la paleonteología. Un ejemplo emblemático de esto es una investigación llevada a cabo por el equipo internacional del ProyectORCE, liderado por las universidades de Granada, Complutense de Madrid y Salamanca. En este estudio, publicado en la prestigiosa revista Science Bulletin, se empleó la Inteligencia Artificial para describir y caracterizar las marcas de mordedura de la hiena Pachycrocuta brevirostris, una especie que habitó en Orce, Granada, hace aproximadamente 1,6 millones de años. A través de la combinación de Morfometría Geométrica 3D y Deep Learning, este equipo pudo identificar con precisión el "código de barras" de las marcas de mordedura. Estos avances, que se integran perfectamente con el análisis desarrollado en este artículo, anticipan un horizonte lleno de oportunidades para la evolución biológica y la paleontología, donde la Inteligencia Artificial juega un papel cada vez más crucial.

 

VI. CONCLUSIONES

La revolución de los datos ha desencadenado una ola de innovación en múltiples campos, y la paleontología no ha sido la excepción. El machine learning que logra descifrar patrones complejos y analizar enormes conjuntos de datos, ha añadido una nueva visión para abordarel estudio de la vida prehistórica. Estas herramientas no sólo enriquecen el entendimiento actual, sino que también abren puertas a nuesvas perspectivas antes no imaginadas.

 

Es esencial reconocer que la tecnología es una herramienta, no un sustituto. El papel insustituible del análisis humano, la observación y la intuición sigue siendo fundamental en la ciencia. La combinación de la sabiduría tradicional de la paleontología con las capacidades avanzadas del machine learning ofrece un futuro brillante, donde cada descubrimiento acerca más a las respuestas sobre los misterios del pasado. En este pasaje en evolución, la paleontología no sólo revivirá las historias de las eras pasadas, sino que también se adaptará y crecerá, asegurando su relevancia y vitalidad en la era digital.

 

VII. BIBLIOGRAFÍA

• 3D Printing Desing.(2022). Lo que el ojo no ve: La paleontología se reinventa gracias a la Inteligencia Artificial. Enlace en: http://www.3dprintingdesign.es/es/noticia/lo-que-el-ojo-no-ve-la-paleontologia-se-reinventa-gracias-a-la-inteligencia-artificial

• Bhattacharjee A., Shamsuzzoha B. (2020). Machine learning based imputation techniques for estimating phylogenetic trees from incomplete distance matrices. https://doi.org/10.1186/s12864-020 06892-5.

• Monson, T.A., D.W. Armitage and L.J. Hlusko. 2018. Using machine learning to classify extant apes and interpret the den- tal morphology of the chimpanzee-human last common ancestor. PaleoBios, 35. ucmp_paleobios_40776.

• Paleontología. Servicio Geológico Mexicano. (2017). Enlace en: https://www.sgm.gob.mx/Web/MuseoVirtual/Fosiles/Paleontologia.html#:~:text=La%20Paleontolog%C3%ADa%20es%20muy%20importante,la%20deriva%20de%20los%20continentes.

• Yuxuan X. , Zongyang D., Juebo W., Yang L., Haoyang W. 2020. Automatic Recognition of Palaeobios Images Under Microscope Based on Machine Learning. DOI: 10.1109/ACCESS.2020.3024819.

 

Comentarios

Registrate o Inicia Sesión para comentar y obtener Cursos de pago gratis

function loadurl(){ var val1 = document.getElementById("valor3").value; console.log(val1); if(val1){ window.location = "/comunidad/blog/filtrar/"+val1+"/"} }