Análise de arquiteturas baseadas em transformers na transcrição de fala e descrição de áudio de fundo simultâneos em cenários sonoros mistos

dc.contributor.advisor-co1Boldt, Francisco de Assis
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0001-6919-5377
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/0385991152092556
dc.contributor.advisor1Badue, Claudine Santos
dc.contributor.advisor1IDhttps://orcid.org/0000-0003-1810-8581
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1359531672303446
dc.contributor.authorSilva, João Vitor Roriz da
dc.contributor.authorIDhttps://orcid.org/
dc.contributor.authorLatteshttp://lattes.cnpq.br/8121638031129636
dc.contributor.referee1Souza, Alberto Ferreira de
dc.contributor.referee1IDhttps://orcid.org/0000-0003-1561-8447
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7573837292080522
dc.contributor.referee2Paixão, Thiago Meireles
dc.contributor.referee2IDhttps://orcid.org/0000-0003-1554-6834
dc.contributor.referee2Latteshttp://lattes.cnpq.br/2961730349897943
dc.date.accessioned2025-06-13T17:46:27Z
dc.date.available2025-06-13T17:46:27Z
dc.date.issued2025-03-26
dc.description.abstractThis work investigates how two specialized neural networks—a speech transcription model (Whisper) and a general audio captioning model (Prompteus)—can be jointly leveraged to process mixed audio inputs containing both speech and non-speech events. We construct the Clotho Voice dataset by merging speech recordings from the Common Voice 5.1 corpus and general sounds from the Clotho 2.1 dataset. Through a series of controlled experiments, we examine how each model’s performance degrades when presented with overlapping speech and background sounds. Results show that Whisper excels at transcription when speech dominates the input signal, yet its accuracy diminishes in the presence of substantial non speech noise. Conversely, Prompteus demonstrates high performance in purely background oriented settings but exhibits a decline in descriptive capability as speech levels increase. We also highlight how preprocessing steps—such as normalization and resampling—impact borderline cases, revealing that subtle audio features are crucial for robust event detection in challenging acoustic environments. Our findings underscore the importance of tailored training and data augmentation strategies to mitigate performance loss in mixed audio scenarios. By integrating the complementary strengths of speech-focused and background focused models, we offer a pathway toward more comprehensive audio understanding systems suitable for noisy, real-world applications, including industrial automation and assistive technologies. This research paves the way for developing hybrid frameworks that capture both spoken language and context-rich environmental cues in a single, unified approach
dc.description.resumoEste trabalho investiga como duas redes neurais especializadas — um modelo de transcrição de fala (Whisper) e um modelo geral de legendagem de áudio (Prompteus) — podem ser combinadas para processar entradas de áudio misto contendo eventos de fala e não fala. A partir da união de gravações de fala do corpus Common Voice 5.1 e sons gerais do conjunto de dados Cloto 2.1., foi construído o conjunto de dados Clotho Voice e, por meio de uma série de experimentos controlados, examinou-se como cada modelo é afetado e qual o seu desempenho ao lidar com sobreposições de fala e sons de fundo. Os resultados revelam que o Whisper destaca-se na transcrição quando o sinal de entrada é dominado por fala, mas sua precisão diminui na presença de ruído significativo de não fala. Por sua vez, o Prompteus apresenta alto desempenho em cenários puramente orientados ao fundo, mas demonstra redução de sua capacidade descritiva à medida que os níveis de fala aumentam. A pesquisa realizada também destaca, por meio da identificação de características sutis do áudio cruciais para a detecção robusta de eventos em ambientes acústicos desafiadores, de que modo etapas de pré-processamento- como normalização e reamostragem- afetam casos-limítrofes. Os resultados demonstram a importância de estratégias de treinamento e aumento de dados personalizadas para mitigar perdas de desempenho em cenários de áudio misto. Ao integrar os pontos fortes complementares de modelos focados em fala e em fundo, apresenta-se um caminho para sistemas de compreensão de áudio mais abrangentes, adequados a aplicações ruidosas do mundo real. Entre as possibilidades de implementação incluem-se a automação industrial e as tecnologias assistivas. Portanto, esta pesquisa abre caminho para o desenvolvimento de frameworks híbridos, os quais, com abordagem única, podem capturar tanto a linguagem falada quanto pistas contextuais ricas do ambiente
dc.description.sponsorshipFundação de Amparo à Pesquisa do Espírito Santo (FAPES)
dc.formatText
dc.identifier.urihttp://repositorio.ufes.br/handle/10/19765
dc.languagepor
dc.language.isopt
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseMestrado em Informática
dc.publisher.departmentCentro Tecnológico
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Informática
dc.rightsopen access
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectTranscrição automática de fala
dc.subjectLegendas automáticas de fundo
dc.subjectLegendas automáticas de fundo
dc.subjectDescrição automática de áudio
dc.subjectDescrição automática de áudio
dc.subjectWhisper
dc.subjectWhisper
dc.subjectAutomatic speech transcription
dc.subjectAutomatic speech transcription
dc.subjectAutomatic background captioning
dc.subjectAutomatic background captioning
dc.subjectAutomatic audio description
dc.subjectAutomatic audio description
dc.subject.cnpqCiência da Computação
dc.titleAnálise de arquiteturas baseadas em transformers na transcrição de fala e descrição de áudio de fundo simultâneos em cenários sonoros mistos
dc.typemasterThesis
foaf.mboxemail@ufes.br
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
JoaoVitorRorizdaSilva-2025-dissertacao.pdf
Tamanho:
3.08 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: