Classificação espectral de PAHs via deep learning informado pela física
| dc.contributor.advisor-co1 | Souza, Fábio Arthur Leão de | |
| dc.contributor.advisor-co1ID | https://orcid.org/0000-0002-6158-7330 | |
| dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/1140962711692698 | |
| dc.contributor.advisor1 | Pansini, Fernando Nespoli Nassar | |
| dc.contributor.advisor1ID | https://orcid.org/0000-0001-8984-686X | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7331959117489023 | |
| dc.contributor.author | Silva, Geovani Victor Soares da | |
| dc.contributor.authorID | https://orcid.org/0009-0000-2372-0519 | |
| dc.contributor.authorLattes | http://lattes.cnpq.br/7645514719354805 | |
| dc.contributor.referee1 | Mota, Vinícius Cândido | |
| dc.contributor.referee1ID | https://orcid.org/0000-0001-8368-0803 | |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/4038237972209273 | |
| dc.contributor.referee2 | Marra, Valério | |
| dc.contributor.referee2ID | http://orcid.org/0000-0002-7773-1579 | |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/6846011112691877 | |
| dc.date.accessioned | 2026-03-31T10:40:08Z | |
| dc.date.available | 2026-03-31T10:40:08Z | |
| dc.date.issued | 2026-03-19 | |
| dc.description.abstract | The identification of Polycyclic Aromatic Hydrocarbons (PAHs) in astrophysical environ ments relies on comparing theoretical spectra computed by Density Functional Theory (DFT) with experimental infrared observations. However, the harmonic approximation employed in DFT calculations neglects anharmonic effects, such as non-uniform frequency shifts, Fermi resonances, and combination bands, producing a domain shift that com promises the generalization of deep learning models trained exclusively on theoretical data. This thesis proposes and validates a Spectroscopy-Guided Data Augmentation (SGDA) strategy, based on the stochastic simulation of physical artifacts, to overcome this limitation without requiring costly anharmonic calculations. The methodology rests on three pillars: (i) optimization of the spectral resolution, set at a Full Width at Half Maximum (FWHM) of 6.0 cm−1, which maximizes the geometric separability among chem ical classes; (ii) a physics-informed transformation pipeline, including elastic distortion of the frequency axis, insertion of synthetic peaks, and band masking, algorithmically formalized to ensure reproducibility; and (iii) a One-Dimensional Convolutional Neural Network (1D-CNN) based on the Inception architecture, adapted for multiscale spectral feature extraction. The model was trained on 10,775 theoretical spectra from the NASA Ames PAH IR Spectroscopic Database (PAHdb) and evaluated on 84 matrix-isolation experimental spectra. The Physics-Informed strategy achieved a weighted F1-Score of 0.826 on the experimental test set, significantly outperforming both the harmonic baseline (0.567) and the linear Bjerrum augmentation approach (0.558). Interpretability analyses via Grad-CAM demonstrated that the network bases its decisions on chemically coherent spectral regions: the shoulders of the C–H stretching band (∼ 3050 cm−1) for neutral PAHs, the skeletal deformation modes (1100–1600 cm−1) for PANHs, and signal suppression at high frequencies (> 1700 cm−1) for ionic species. The t-SNE analysis confirmed that the model reduces the distance between the theoretical and experimental domains in latent space, with reductions of up to 36% in centroid distance for the PAH Cation class. The results validate the hypothesis that incorporating physical knowledge into neural network training constitutes an effective domain adaptation strategy for computational spectroscopy, opening perspectives for the automated analysis of observational data from the James Webb Space Telescope (JWST) | |
| dc.description.resumo | A identificação de Hidrocarbonetos Policíclicos Aromáticos (PAHs) em ambientes astrofísi cos depende da comparação entre espectros teóricos calculados por Teoria do Funcional da Densidade (DFT) e observações experimentais no infravermelho. Contudo, a aproximação harmônica empregada nos cálculos DFT negligencia efeitos anarmônicos, como deslocamen tos não uniformes de frequência, Ressonâncias de Fermi e bandas de combinação, gerando um deslocamento de domínio que compromete a generalização de modelos de aprendizado profundo treinados exclusivamente em dados teóricos. Esta dissertação propõe e valida uma estratégia de Aumento de Dados Guiado por Espectroscopia (SGDA), baseada na simulação estocástica de artefatos físicos, para superar essa limitação sem a necessidade de cálculos anarmônicos custosos. A metodologia fundamenta-se em três pilares: (i) a otimização da resolução espectral, fixada em uma Largura à Meia Altura (FWHM) de 6,0 cm−1, que maximiza a separabilidade geométrica entre classes químicas; (ii) um fluxo de transformações informadas pela física, incluindo distorção elástica do eixo de frequência, inserção de picos sintéticos e mascaramento de bandas, formalizado algoritmicamente para garantir reprodutibilidade; e (iii) uma Rede Neural Convolucional Unidimensional (1D-CNN) baseada na arquitetura Inception, adaptada para a extração multiescala de características espectrais. O modelo foi treinado em 10.775 espectros teóricos da NASA Ames PAH IR Spectroscopic Database (PAHdb) e avaliado em 84 espectros experimentais de isolamento em matriz. A estratégia Informada pela Física alcançou um F1-Score ponde rado de 0,826 no conjunto de teste experimental, superando significativamente a linha de base harmônica (0,567) e a abordagem de aumento linear de Bjerrum (0,558). Análises de interpretabilidade via Grad-CAM demonstraram que a rede baseia suas decisões em regiões espectrais quimicamente coerentes: os ombros da banda de estiramento C–H (∼ 3050 cm−1) para PAHs neutros, os modos de deformação do esqueleto (1100–1600 cm−1) para PANHs e a supressão de sinal em altas frequências (> 1700 cm−1) para espécies iônicas. A análise via t-SNE confirmou que o modelo reduz a distância entre os domínios teórico e experimental no espaço latente, com reduções de até 36% na distância de centroide para a classe PAH Cátion. Os resultados validam a hipótese de que a incorporação de conhecimento físico no treinamento de redes neurais constitui uma estratégia eficaz de adaptação de domínio para a espectroscopia computacional, abrindo perspectivas para a análise automatizada de dados observacionais do Telescópio Espacial James Webb (JWST) | |
| dc.description.sponsorship | Fundação de Amparo à Pesquisa e Inovação do Espírito Santo (FAPES) | |
| dc.format | Text | |
| dc.identifier.uri | http://repositorio.ufes.br/handle/10/21014 | |
| dc.language | por | |
| dc.language.iso | pt | |
| dc.publisher | Universidade Federal do Espírito Santo | |
| dc.publisher.country | BR | |
| dc.publisher.course | Mestrado em Física | |
| dc.publisher.department | Centro de Ciências Exatas | |
| dc.publisher.initials | UFES | |
| dc.publisher.program | Programa de Pós-Graduação em Física | |
| dc.rights | open access | |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.subject | Hidrocarbonetos policíclicos aromáticos | |
| dc.subject | Aprendizado profundo | |
| dc.subject | Espectroscopia infravermelho | |
| dc.subject | Aumento de dados informado pela física | |
| dc.subject | Redes neurais convolucionais | |
| dc.subject | Deslocamento de domínio | |
| dc.subject | Astroquímica | |
| dc.subject | Polycyclic aromatic hydrocarbons | |
| dc.subject | Deep learning | |
| dc.subject | Infrared spectroscopy | |
| dc.subject | Physics-informed data augmentation | |
| dc.subject | Convolutional neural networks | |
| dc.subject | Domain shift | |
| dc.subject | Astro chemistry | |
| dc.subject.cnpq | Física | |
| dc.title | Classificação espectral de PAHs via deep learning informado pela física | |
| dc.type | masterThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- GiovaniVictorSoaresdaSilva-2026-dissertacao.pdf
- Tamanho:
- 16.61 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: