Classificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)

dc.contributor.advisor-co1Meira, Débora Dummer
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0002-6092-2459
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/7199119599752978
dc.contributor.advisor1Louro, Iuri Drumond
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-5160-9615
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3817361438227180
dc.contributor.authorZetum, Aléxia Stefani Siqueira
dc.contributor.authorIDhttps://orcid.org/0000-0002-5086-411X
dc.contributor.referee1Paula, Flávia de
dc.contributor.referee1IDhttps://orcid.org/0000-0001-8679-2982
dc.contributor.referee2Carvalho, Elizeu Fagundes de
dc.contributor.referee2IDhttps://orcid.org/0000-0003-4620-7253
dc.date.accessioned2025-04-14T17:49:36Z
dc.date.available2025-04-14T17:49:36Z
dc.date.issued2025-02-24
dc.description.abstractIntroduction: SARS-CoV-2 infection presents a wide spectrum of clinical manifestations. Genetic variations may influence the host's response to the virus. The use of Machine Learning (ML) has shown promise in identifying genetic biomarkers and individuals who may develop severe forms of the disease. Objective: To develop an ML model using exome data to predict clinical outcomes in COVID-19 patients and identify genes potentially associated with disease severity. Methodology: The study involved data from 239 COVID-19 patients ("Non-severe" and "Severe"). DNA sequencing was performed, and ancestry analysis was conducted. A Support Vector Machine (SVM) model with a linear kernel was developed to predict COVID-19 severity, utilizing Recursive Feature Elimination (RFE) to select the most influential variants. Metrics such as Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), accuracy, F1 score, sensitivity, and specificity were used. Subsequently, logistic regression (LR) analysis was performed with the variants selected by SVM-RFE and confounding variables. Results and Discussion: The SVM model with a linear kernel achieved an AUC-ROC of 0,81, accuracy of 83%, and an F1 score of 0,78, indicating a good capacity to discriminate between "Severe" and "Non-severe" cases of COVID-19. Fifteen variants were selected by the model, of which seven were significantly associated with disease severity in the LR analysis. Risk variants include WSCD1 (rs2302837 "A/A" or "A/G," 95% CI: 1,32–7,24, OR: 3,09, P < 0,01), PTPRS (rs1143700 "A/A" or "A/G," 95% CI: 1,54–7,07, OR: 3,30, P < 0,01), ARVCF (rs2073744 "A/A" or "A/G," 95% CI: 1,31–6,30, OR: 2,88, P < 0,01), and LVRN (rs10078759 "G/G" or "G/C," 95% CI: 1,07–4,31, OR: 2,08, P = 0,04). Conversely, protective variants include ALDH4A1 (rs6426813 "G/G" or "G/A," 95% CI: 0,23–0,93, OR: 0,48, P = 0,02), ARHGAP22 (rs10776601 "C/C" or "C/T," 95% CI: 0,09–0,56, OR: 0,23, P < 0,01), and C3 (rs423490 "A/A" or "A/G," 95% CI: 0,14–0,70, OR: 0,32, P < 0,01). The results demonstrated that the SVM with a linear kernel is effective in predicting COVID-19 severity using exome data. The protein-protein interaction (PPI) network analysis identified biological pathways associated with the immune system, inflammatory response, and blood coagulation. Genes such as C3, PTPRS, and LVRN stood out in functions related to immune response regulation and inflammation modulation, suggesting these pathways are directly linked to adverse COVID-19 outcomes. The network also revealed the interconnection between cellular signaling processes and stress response mechanisms, which may explain the variability in clinical responses observed among patients. Conclusion: The SVM with a linear kernel using our data proved effective in predicting COVID-19 severity. This study highlights the importance of integrative approaches to better understanding the disease. Identifying genetic biomarkers can aid in treatment and management of future pandemics
dc.description.resumoIntrodução: A infecção por SARS-CoV-2 apresenta um amplo espectro de manifestações clínicas. Variações genéticas podem influenciar a resposta do hospedeiro ao vírus. O uso de Machine learning (ML) tem se mostrado promissor na identificação de biomarcadores genéticos e de indivíduos que possam desenvolver a forma mais grave da doença. Objetivo: Desenvolver um modelo de ML com dados de exoma para prever desfechos clínicos em pacientes com COVID-19 e identificar genes que possam estar associados à gravidade da doença. Metodologia: A pesquisa envolveu dados de 239 pacientes com COVID-19 (“Não grave” e “Grave”). O sequenciamento de DNA foi realizado e uma análise de ancestralidade foi conduzida. Um modelo de Máquinas de Vetores de Suporte (SVM) com kernel linear foi desenvolvido para prever a gravidade da COVID-19, com o uso de Recursive Feature Elimination (RFE) para selecionar as variantes mais influentes. Métricas como Area Under the Curve-Receiver Operating Characteristic (AUC-ROC), precisão, F1 score, sensibilidade e especificidade foram usados. Posteriormente, uma análise de regressão logística (RL) com as variantes selecionadas pelo SVM-RFE e variáveis de confusão foi realizada. Resultados e Discussão: O modelo SVM com kernel linear apresentou um AUC-ROC de 0,81, precisão de 83%, e F1 score de 0,78, o que indica uma boa capacidade de discriminação entre casos “Graves” e “Não graves” de COVID-19. Foram selecionadas 15 variantes pelo modelo, das quais sete mostraram- se significativamente associadas à gravidade da doença na RL. As variantes de risco incluem WSCD1 (rs2302837 “A/A” ou “A/G”, IC 95% 1,32-7,24, OR: 3,09, P<0,01), PTPRS (rs1143700 “A/A” ou “A/G”, IC 95% 1,54-7,07, OR: 3,30, P <0,01), ARVCF (rs2073744 “A/A” ou “A/G”, IC 95% 1,31-6,30, OR: 2,88, P<0,01) e LVRN (rs10078759 “G/G” ou “G/C”, IC 95% 1,07-4,31, OR: 2,08, P=0,04). Por outro lado, variantes protetoras incluem ALDH4A1 (rs6426813 “G/G” ou “G/A”, IC 95% 0,23-0,93, OR: 0,48, P=0,02), ARHGAP22 (rs10776601 “C/C” ou “C/T”, IC 95% 0,09-0,56, OR: 0,23, P<0,01) e C3 (rs423490 “A/A” ou “A/G”, IC 95% 0,14-0,70, OR: 0,32, P<0,01). A análise dos resultados mostrou que o SVM com kernel linear é eficaz na previsão da gravidade da COVID-19 com dados do exoma. A análise da rede de interação proteína-proteína (PPI) identificou vias biológicas associadas ao sistema imune, resposta inflamatória e coagulação sanguínea. Genes como C3, PTPRS e LVRN se destacaram em funções relacionadas à regulação da resposta imune e à modulação da inflamação, sugerindo que estas vias estão ligadas diretamente ao desfecho ruim na COVID-19. A rede também revelou a interconexão entre processos de sinalização celular e mecanismos de resposta ao estresse, o que pode explicar a variabilidade na resposta clínica observada entre os pacientes. Conclusão: SVM com kernel linear com nossos dados, mostrou-se eficaz na previsão da gravidade da COVID-19. Este estudo destaca a importância de abordagens integrativas para melhor entendimento da doença. A identificação de biomarcadores genéticos pode auxiliar no tratamento e na gestão de futuras pandemias
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.formatText
dc.identifier.urihttp://repositorio.ufes.br/handle/10/19167
dc.languagepor
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseMestrado em Biotecnologia
dc.publisher.departmentCentro de Ciências da Saúde
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Biotecnologia
dc.rightsopen access
dc.subjectBiomarcadores
dc.subjectMachine learning
dc.subjectGenética
dc.subject.cnpqBiotecnologia
dc.titleClassificação de gravidade e identificação de biomarcadores na Covid-19: análise do exoma de pacientes através de máquinas de vetores de suporte com kernel linear (SVM)
dc.typemasterThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
AlexiaStefaniSiqueiraZetum-2025-Dissertacao.pdf
Tamanho:
2.14 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: