Análise de arquiteturas baseadas em transformers na transcrição de fala e descrição de áudio de fundo simultâneos em cenários sonoros mistos
dc.contributor.advisor-co1 | Boldt, Francisco de Assis | |
dc.contributor.advisor-co1ID | https://orcid.org/0000-0001-6919-5377 | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/0385991152092556 | |
dc.contributor.advisor1 | Badue, Claudine Santos | |
dc.contributor.advisor1ID | https://orcid.org/0000-0003-1810-8581 | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/1359531672303446 | |
dc.contributor.author | Silva, João Vitor Roriz da | |
dc.contributor.authorID | https://orcid.org/ | |
dc.contributor.authorLattes | http://lattes.cnpq.br/8121638031129636 | |
dc.contributor.referee1 | Souza, Alberto Ferreira de | |
dc.contributor.referee1ID | https://orcid.org/0000-0003-1561-8447 | |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/7573837292080522 | |
dc.contributor.referee2 | Paixão, Thiago Meireles | |
dc.contributor.referee2ID | https://orcid.org/0000-0003-1554-6834 | |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/2961730349897943 | |
dc.date.accessioned | 2025-06-13T17:46:27Z | |
dc.date.available | 2025-06-13T17:46:27Z | |
dc.date.issued | 2025-03-26 | |
dc.description.abstract | This work investigates how two specialized neural networks—a speech transcription model (Whisper) and a general audio captioning model (Prompteus)—can be jointly leveraged to process mixed audio inputs containing both speech and non-speech events. We construct the Clotho Voice dataset by merging speech recordings from the Common Voice 5.1 corpus and general sounds from the Clotho 2.1 dataset. Through a series of controlled experiments, we examine how each model’s performance degrades when presented with overlapping speech and background sounds. Results show that Whisper excels at transcription when speech dominates the input signal, yet its accuracy diminishes in the presence of substantial non speech noise. Conversely, Prompteus demonstrates high performance in purely background oriented settings but exhibits a decline in descriptive capability as speech levels increase. We also highlight how preprocessing steps—such as normalization and resampling—impact borderline cases, revealing that subtle audio features are crucial for robust event detection in challenging acoustic environments. Our findings underscore the importance of tailored training and data augmentation strategies to mitigate performance loss in mixed audio scenarios. By integrating the complementary strengths of speech-focused and background focused models, we offer a pathway toward more comprehensive audio understanding systems suitable for noisy, real-world applications, including industrial automation and assistive technologies. This research paves the way for developing hybrid frameworks that capture both spoken language and context-rich environmental cues in a single, unified approach | |
dc.description.resumo | Este trabalho investiga como duas redes neurais especializadas — um modelo de transcrição de fala (Whisper) e um modelo geral de legendagem de áudio (Prompteus) — podem ser combinadas para processar entradas de áudio misto contendo eventos de fala e não fala. A partir da união de gravações de fala do corpus Common Voice 5.1 e sons gerais do conjunto de dados Cloto 2.1., foi construído o conjunto de dados Clotho Voice e, por meio de uma série de experimentos controlados, examinou-se como cada modelo é afetado e qual o seu desempenho ao lidar com sobreposições de fala e sons de fundo. Os resultados revelam que o Whisper destaca-se na transcrição quando o sinal de entrada é dominado por fala, mas sua precisão diminui na presença de ruído significativo de não fala. Por sua vez, o Prompteus apresenta alto desempenho em cenários puramente orientados ao fundo, mas demonstra redução de sua capacidade descritiva à medida que os níveis de fala aumentam. A pesquisa realizada também destaca, por meio da identificação de características sutis do áudio cruciais para a detecção robusta de eventos em ambientes acústicos desafiadores, de que modo etapas de pré-processamento- como normalização e reamostragem- afetam casos-limítrofes. Os resultados demonstram a importância de estratégias de treinamento e aumento de dados personalizadas para mitigar perdas de desempenho em cenários de áudio misto. Ao integrar os pontos fortes complementares de modelos focados em fala e em fundo, apresenta-se um caminho para sistemas de compreensão de áudio mais abrangentes, adequados a aplicações ruidosas do mundo real. Entre as possibilidades de implementação incluem-se a automação industrial e as tecnologias assistivas. Portanto, esta pesquisa abre caminho para o desenvolvimento de frameworks híbridos, os quais, com abordagem única, podem capturar tanto a linguagem falada quanto pistas contextuais ricas do ambiente | |
dc.description.sponsorship | Fundação de Amparo à Pesquisa do Espírito Santo (FAPES) | |
dc.format | Text | |
dc.identifier.uri | http://repositorio.ufes.br/handle/10/19765 | |
dc.language | por | |
dc.language.iso | pt | |
dc.publisher | Universidade Federal do Espírito Santo | |
dc.publisher.country | BR | |
dc.publisher.course | Mestrado em Informática | |
dc.publisher.department | Centro Tecnológico | |
dc.publisher.initials | UFES | |
dc.publisher.program | Programa de Pós-Graduação em Informática | |
dc.rights | open access | |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Transcrição automática de fala | |
dc.subject | Legendas automáticas de fundo | |
dc.subject | Legendas automáticas de fundo | |
dc.subject | Descrição automática de áudio | |
dc.subject | Descrição automática de áudio | |
dc.subject | Whisper | |
dc.subject | Whisper | |
dc.subject | Automatic speech transcription | |
dc.subject | Automatic speech transcription | |
dc.subject | Automatic background captioning | |
dc.subject | Automatic background captioning | |
dc.subject | Automatic audio description | |
dc.subject | Automatic audio description | |
dc.subject.cnpq | Ciência da Computação | |
dc.title | Análise de arquiteturas baseadas em transformers na transcrição de fala e descrição de áudio de fundo simultâneos em cenários sonoros mistos | |
dc.type | masterThesis | |
foaf.mbox | email@ufes.br |