Fechar

Defesa de Dissertação de Mestrado do aluno Matheus Adler Soares Pinto

Defesa de Dissertação de Mestrado do aluno  Matheus Adler Soares Pinto.

Título da dissertação: A Method for Real-TimeGenerationofVideokefromvídeostreaming

Resumo: Sistemas tradicionais de karaokê frequentemente dependem de faixas de videoke pré-gravadas e estáticas, limitando a espontaneidade e personalização da experiência de karaokê. Esta dissertação propõe um método que busca romper com essas restrições, apresentando uma abordagem inovadora para a geração em tempo real de videoke (karaoke com vídeo) a partir de fontes de streaming de vídeo. O processo central, conhecido como Gerador de Videoke, gera eficientemente segmentos de videoke combinando métodos de processamento de vídeo e áudio. O método começa com o Módulo Separador, que divide o vídeo de música em segmentos correspondentes de vídeo e áudio, permitindo um processamento granular. O passo crucial de separação vocal segue, em que os segmentos de áudio individuais são processados usando o Modelo Pré-Treinado Demucs. Essa separação extrai os elementos vocais e de acompanhamento, um aspecto crucial na criação de videoke. Em seguida, os segmentos vocais são convertidos em transcrições precisas usando o Modelo Pré-Treinado Faster-Whisper, incorporando o CTranslate2 para inferência otimizada. As transcrições são enriquecidas com marcações de tempo em nível de palavra para aprimorar a sincronização das legendas. As transcrições, juntamente com suas marcações de tempo, são usadas para sincronizar as legendas com o vídeo usando um script especializado no Módulo SRT para gerar automaticamente arquivos SubRip (SRT). Essa sincronização inclui o destaque em nível de palavra para melhorar a percepção das legendas. Finalmente, o vídeo, as legendas e o acompanhamento musical são combinados em um segmento de videoke usando o FFMPEG, que serve como saída final para cada segmento durante o processo de geração automática de videoke. O método proposto aborda eficientemente o desafio de processar streams de vídeo em tempo real, permitindo uma comunicação contínua entre o servidor e o usuário, implementando um mecanismo de buffer para iniciar o processamento. Dessa forma, a exibição do videoke pode começar mesmo antes que o processamento completo do vídeo seja concluído, resultando em baixa latência. Essa abordagem em tempo real oferece uma solução abrangente e inovadora, proporcionando uma experiência de karaokê personalizada e sincronizada para os usuários.

Orientador: Prof. Dr. Sérgio Colcher 

Banca: Julio Cesar Duarte | Antonio José Grandson Busson

 

Assista a defesa pelo link:

https://puc-rio.zoom.us/j/95830425817?pwd=aDdEMDRURWxnRDlLYlUzaXVKdzNiZz09