Classificação espectral de PAHs via deep learning informado pela física

dc.contributor.advisor-co1Souza, Fábio Arthur Leão de
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0002-6158-7330
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/1140962711692698
dc.contributor.advisor1Pansini, Fernando Nespoli Nassar
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-8984-686X
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7331959117489023
dc.contributor.authorSilva, Geovani Victor Soares da
dc.contributor.authorIDhttps://orcid.org/0009-0000-2372-0519
dc.contributor.authorLatteshttp://lattes.cnpq.br/7645514719354805
dc.contributor.referee1Mota, Vinícius Cândido
dc.contributor.referee1IDhttps://orcid.org/0000-0001-8368-0803
dc.contributor.referee1Latteshttp://lattes.cnpq.br/4038237972209273
dc.contributor.referee2Marra, Valério
dc.contributor.referee2IDhttp://orcid.org/0000-0002-7773-1579
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6846011112691877
dc.date.accessioned2026-03-31T10:40:08Z
dc.date.available2026-03-31T10:40:08Z
dc.date.issued2026-03-19
dc.description.abstractThe identification of Polycyclic Aromatic Hydrocarbons (PAHs) in astrophysical environ ments relies on comparing theoretical spectra computed by Density Functional Theory (DFT) with experimental infrared observations. However, the harmonic approximation employed in DFT calculations neglects anharmonic effects, such as non-uniform frequency shifts, Fermi resonances, and combination bands, producing a domain shift that com promises the generalization of deep learning models trained exclusively on theoretical data. This thesis proposes and validates a Spectroscopy-Guided Data Augmentation (SGDA) strategy, based on the stochastic simulation of physical artifacts, to overcome this limitation without requiring costly anharmonic calculations. The methodology rests on three pillars: (i) optimization of the spectral resolution, set at a Full Width at Half Maximum (FWHM) of 6.0 cm−1, which maximizes the geometric separability among chem ical classes; (ii) a physics-informed transformation pipeline, including elastic distortion of the frequency axis, insertion of synthetic peaks, and band masking, algorithmically formalized to ensure reproducibility; and (iii) a One-Dimensional Convolutional Neural Network (1D-CNN) based on the Inception architecture, adapted for multiscale spectral feature extraction. The model was trained on 10,775 theoretical spectra from the NASA Ames PAH IR Spectroscopic Database (PAHdb) and evaluated on 84 matrix-isolation experimental spectra. The Physics-Informed strategy achieved a weighted F1-Score of 0.826 on the experimental test set, significantly outperforming both the harmonic baseline (0.567) and the linear Bjerrum augmentation approach (0.558). Interpretability analyses via Grad-CAM demonstrated that the network bases its decisions on chemically coherent spectral regions: the shoulders of the C–H stretching band (∼ 3050 cm−1) for neutral PAHs, the skeletal deformation modes (1100–1600 cm−1) for PANHs, and signal suppression at high frequencies (> 1700 cm−1) for ionic species. The t-SNE analysis confirmed that the model reduces the distance between the theoretical and experimental domains in latent space, with reductions of up to 36% in centroid distance for the PAH Cation class. The results validate the hypothesis that incorporating physical knowledge into neural network training constitutes an effective domain adaptation strategy for computational spectroscopy, opening perspectives for the automated analysis of observational data from the James Webb Space Telescope (JWST)
dc.description.resumoA identificação de Hidrocarbonetos Policíclicos Aromáticos (PAHs) em ambientes astrofísi cos depende da comparação entre espectros teóricos calculados por Teoria do Funcional da Densidade (DFT) e observações experimentais no infravermelho. Contudo, a aproximação harmônica empregada nos cálculos DFT negligencia efeitos anarmônicos, como deslocamen tos não uniformes de frequência, Ressonâncias de Fermi e bandas de combinação, gerando um deslocamento de domínio que compromete a generalização de modelos de aprendizado profundo treinados exclusivamente em dados teóricos. Esta dissertação propõe e valida uma estratégia de Aumento de Dados Guiado por Espectroscopia (SGDA), baseada na simulação estocástica de artefatos físicos, para superar essa limitação sem a necessidade de cálculos anarmônicos custosos. A metodologia fundamenta-se em três pilares: (i) a otimização da resolução espectral, fixada em uma Largura à Meia Altura (FWHM) de 6,0 cm−1, que maximiza a separabilidade geométrica entre classes químicas; (ii) um fluxo de transformações informadas pela física, incluindo distorção elástica do eixo de frequência, inserção de picos sintéticos e mascaramento de bandas, formalizado algoritmicamente para garantir reprodutibilidade; e (iii) uma Rede Neural Convolucional Unidimensional (1D-CNN) baseada na arquitetura Inception, adaptada para a extração multiescala de características espectrais. O modelo foi treinado em 10.775 espectros teóricos da NASA Ames PAH IR Spectroscopic Database (PAHdb) e avaliado em 84 espectros experimentais de isolamento em matriz. A estratégia Informada pela Física alcançou um F1-Score ponde rado de 0,826 no conjunto de teste experimental, superando significativamente a linha de base harmônica (0,567) e a abordagem de aumento linear de Bjerrum (0,558). Análises de interpretabilidade via Grad-CAM demonstraram que a rede baseia suas decisões em regiões espectrais quimicamente coerentes: os ombros da banda de estiramento C–H (∼ 3050 cm−1) para PAHs neutros, os modos de deformação do esqueleto (1100–1600 cm−1) para PANHs e a supressão de sinal em altas frequências (> 1700 cm−1) para espécies iônicas. A análise via t-SNE confirmou que o modelo reduz a distância entre os domínios teórico e experimental no espaço latente, com reduções de até 36% na distância de centroide para a classe PAH Cátion. Os resultados validam a hipótese de que a incorporação de conhecimento físico no treinamento de redes neurais constitui uma estratégia eficaz de adaptação de domínio para a espectroscopia computacional, abrindo perspectivas para a análise automatizada de dados observacionais do Telescópio Espacial James Webb (JWST)
dc.description.sponsorshipFundação de Amparo à Pesquisa e Inovação do Espírito Santo (FAPES)
dc.formatText
dc.identifier.urihttp://repositorio.ufes.br/handle/10/21014
dc.languagepor
dc.language.isopt
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseMestrado em Física
dc.publisher.departmentCentro de Ciências Exatas
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Física
dc.rightsopen access
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectHidrocarbonetos policíclicos aromáticos
dc.subjectAprendizado profundo
dc.subjectEspectroscopia infravermelho
dc.subjectAumento de dados informado pela física
dc.subjectRedes neurais convolucionais
dc.subjectDeslocamento de domínio
dc.subjectAstroquímica
dc.subjectPolycyclic aromatic hydrocarbons
dc.subjectDeep learning
dc.subjectInfrared spectroscopy
dc.subjectPhysics-informed data augmentation
dc.subjectConvolutional neural networks
dc.subjectDomain shift
dc.subjectAstro chemistry
dc.subject.cnpqFísica
dc.titleClassificação espectral de PAHs via deep learning informado pela física
dc.typemasterThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
GiovaniVictorSoaresdaSilva-2026-dissertacao.pdf
Tamanho:
16.61 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: