Análisis no supervisado de observaciones atípicas en la misión espacial Gaia; optimización mediante procesamiento distribuido e integración en Apsis

  1. Garabato Míguez, Daniel
Dirixida por:
  1. Carlos Dafonte Co-director
  2. Minia Manteiga Co-director

Universidade de defensa: Universidade da Coruña

Fecha de defensa: 29 de setembro de 2020

Tribunal:
  1. Julián Dorado Presidente
  2. Carme Jordi Nebot Secretario/a
  3. David Teyssier Vogal

Tipo: Tese

Teseo: 633553 DIALNET lock_openRUC editor

Resumo

Esta Tese de Doutoramento desenvolveuse no marco da misión Gaia da Axencia Espacial Europea (ESA, do inglés European Space Agency) e do consorcio internacional DPAC (do inglés, Data Processing and Analysis Consortium), baixo os que se está a levar a cabo o censo estelar máis preciso e máis completo ata a data, que porá a disposición da comunidade científica información astrornétrica para máis de 2500 millóns de fontes. Os grandes volumes de datos que se teñen que manexar neste contexto --,-cifra que se estima que supere o Petabyte de información-~, son propios dun entorno Big Data e supón todo un reto para a comunidade científica -especialmente para o consorcio DPAC--", dificultando o seu almacenamento e distribución e facendo imposible a súa análise mediante técnicas e aplicacións convencionais. Deste xeito, xorde a necesidade de empregar estratexias alternativas propias da Minería de Datos (Data Mining), nas que as aplicacións se executan de forma distribuída sobre un conxunto de máquinas, tratando de explotar ao máximo a súa capacidade de cómputo, o que na actualidade se denomina como Big Data. O grupo de investigación no que se realizou esta Tese forma parte do consorcio DPAC -en colaboración con máis de 400 científicos e enxeñeiros-~ dende o ano 2006, participando nas tarefas de análise dos datos e o desenvolvemento de ferramentas para a explotación do catálogo da misión. A principal contribución desta Tese ao proxecto Gaia materializouse mediante o paquete de traballo Outlier Analysis (OA), que se enmarca baixo a cadea de procesado Astrophysical Pammeter Inference System (Apsis) e que ten como obxectivo a análise non supervisada ou clustering ----empregando técnicas de Intelixencia Artificial (lA )-'- das fontes para as que o paquete de clasificación predecesor, o D'iscrefe Source Classifier (DSC), non foi capaz de identificar de forma fiable a súa clase astronómica. En concreto, abordamos os seguintes aspectos: Optimización e adaptación do algoritmo de aprendizaxe dos Mapas Auto-Organizativos (SOM) a diferentes plataformas de cómputo distribuído amplamente utilizadas, como son Apache Hadoop e Apache Spark, de forma que se poidan executar nun tempo aceptable para levar a cabo a análise non supervisada de grandes conxuntos de observacións --principalmente a través da espectrofotometría BP jRP de Gaia-. Así mesmo, tamén adaptamos esta técnica á plataforma SAGA, designada por DPAC para dar soporte a Apsis. _ Integración do módulo OA en Apsis --,e, por tanto, tamén na plataforma SAGAxunto co resto de paquetes de traballo. Para isto, ademais da adaptación dos mapas SOM mencionada anteriormente, tivemos que establecer unha axeitada estratexia para o preprocesado dos datos -en especial da espectrofotometría BP /RP-e unha serie de mecanismos para a caracterización dos clusters, dende unha descrición estadística baseada na información proporcionada polo propio satélite ata diferentes indicadores da calidade dos clusiers -baseados principalmente nas distancias intra-clusier- ou un indicio da súa clase astronómica -'-obtida a partir dun etiquetado mediante modelos sintéticos-o Validación das técnicas utilizadas no módulo OA para verificar o seu funcionamento e o seu rendemento no contexto de Apsis, empregando pequenos conxuntos de datos rcais -próximos aos dez millóns de observacións-·-. Deste xeito, preténdese garantir a calidade da análise non supervisada realizada polo módulo OA, do que se publicarán os seus resultados oficialmente a partir da Data Release 3, prevista para finais de 2021. Para isto, tamén definimos as estruturas de datos precisas para o seu almacenamento e posta a disposición da comunidade científica a través da plataforma habilitada por DPAC, o Gaia Archive, no que colaboramos durante o proceso de análise e validación de casos de uso. De forma complementaria, durante o transcurso desta Tese participamos no desenvolvemento de ferramentas para Minería de Datos baseadas en mapas SOM --e para a visualización dos seus resultados- que permitan a explotación científica do catálogo da misión. En particular, esta ferramenta de visualización desenvolta polo naso grupo de investigación, GUASOM, estará dispoñible a partir da Data Release 3, contando cunha versión específica -GUASOM flavar DR-3- para a análise dos produtos do módulo OA. Do mesmo xeito, tamén levamos a cabo un estudo de viabilidade acerca da implantación de Redes de Neuronas Artificiais convencionais e xenerativas -baseadas en técnicas xenéticas e propostas polo naso grupo de investigación- para a estimación de parámetros astrofísicos estelares en Apsis, baixo o paquete de traballo GSP-Spec. Finalmente, aplicamos as técnicas de lA utilizadas no contexto da misión Gaia --ou outras técnicas de similar natureza-- noutros catálogos, como é o caso do survey astronómico ALHAMBRA, ande realizamos unha análise non supervisada do seu catálogo, e incluso noutros ámbitos, como é o da ciberseguridade, para a autenticación de usuarios a partir do seu comportamento mediante o seguimento continuo da súa actividade.