Defesa de Tese de Doutorado do aluno Anderson José Silva.
Título da tese: Unveiling Design Problems Identification: Combining Multiple Symptoms
Resumo: O projeto de software resulta das decisões das partes interessadas durante o desenvolvimento do mesmo. Algumas decisões podem impactar negativamente os requisitos não funcionais (RNFs), levando a problemas de projeto no sistema. Quando negligenciados, esses problemas podem aumentar os custos de manutenção ou até mesmo causar a descontinuação do sistema de software. Portanto, identificar esses problemas é crucial. Os desenvolvedores geralmente usam anomalias de código relacionados à manutenabilidade, como métodos longos ou código duplicado para indicar problemas de projeto. No entanto, a literatura mostra que apenas este tipo de anomalia podem não ser suficientes para a identificação, pois os desenvolvedores geralmente precisam de informações mais abrangentes sobre o problema de projeto para tomar as ações apropriadas. Nesse cenário, as anomalias de código relacionadas à robustez, como blocos catch vazios, também podem ajudar a identificar e resolver estes problemas. Combinando ambos os tipos de anomalias de código, desenvolvedores podem melhorar sua capacidade de identificar e resolver problemas de projeto. Desse modo, em nosso primeiro estudo, exploramos como os desenvolvedores usam anomalias de manutenabilidade na prática. Queríamos entender até que ponto usar apenas anomalias de manutenabilidade ajuda os desenvolvedores a identificar problemas de projeto. Identificamos que, embora anomalias de manutenabilidade possam realmente ajudar a identificar problemas de projeto, muitas vezes são necessárias informações adicionais para tomar decisões efetivas sobre melhorias e refatoração de código. Assim, em nosso segundo estudo, exploramos as anomalias de robustez. Nosso objetivo foi entender como estes dois tipos de anomalias, combinados, poderiam ser explorados para aprimorar a identificação de problemas de projeto. Ao examinar como os desenvolvedores lidam com RNFs, pretendemos entender melhor quem são os responsáveis por endereçá-los e gerenciá-los. Nosso objetivo é entender suas responsabilidades, funções e tomadas de decisões. Isso nos ajudará a fornecer recomendações para a melhor adesão aos RNFs, reduzindo os problemas de projeto.
Orientador: Prof. Dr. Alessandro Fabricio Garcia
Co-Orientador(a): Prof(a). Dr(a). Juliana Alves Pereira
Banca: Prof. Dr. Jose Alberto Rodrigues Pereira Sardinha | Prof. Dr. Baldoino Fonseca dos Santos Neto | Prof. Dr. Greis Francy Mireya Silva Calpa | Prof. Dr. Rafael Maiani de Mello
Assista a defesa pelo link: https://puc-rio.zoom.us/j/94820627903?pwd=aDZtcXkwVG9UalZQWlhGbk80UU8rdz09
Autor: Anderson José Silva de Oliveira
Orientador: Alessandro Fabrício Garcia
Data e Hora: 03/10/2023 às 14:00
Defesa de Dissertação de Mestrado do aluno Gabriel de Araujo Carvalho.
Título da Dissertação: Assessing the Benefits of MLOps for
Supervised Online Machine Learning
Resumo: Context: Machine Learning Operations (MLOps) has emerged as a set of practices that combines development, testing, and operations to deploy and maintain machine learning applications. Objective: In this dissertation, we will assess the benefits and limitations of the use of MLOps principles in the context of online supervised models, which are widely used in applications such as weather forecasting, market trends, and risk identification. Method: We applied two research methods to assess the benefits of MLOps for supervised online machine learning applications: (i) developing a practical supervised machine learning project to deepen the understanding of the problem and of the MLOps principles usage possibilities; and (ii) two focus group discussions on the benefits and limitations of using the MLOps principles with six experienced machine learning developers. Results: The practical project implemented a supervised regression machine learning application using KNN. The application uses information on Rio de Janeiro’s public bus line routes and calculates the bus trip duration based on the trip departure time of the day and trip direction. Due to the scope of the first version and given that it was not deployed into production, we didn’t feel the need to use the MLOps principles we were expecting at first. Indeed, we identified the need for only one principle, the versioning principle, to align versions of the code and the data. The focus group revealed that machine learning developers believe that the benefits of using MLOps principles are many but that they do not apply to all the projects they worked on. The discussion brought up that most of the benefits are related to avoiding error-prone manual steps, enabling it to restore the application to a previous state, and having a robust continuous automated deployment pipeline. Conclusions: It is important to balance the trade-offs of investing time and effort in implementing the MLOps principles considering the scope and needs of the project. According to the experts, this investment tends to pay off for larger applications with continuous deployment that require well-prepared automated processes. On the other hand, for initial versions of machine learning applications, the effort taken into implementing the principles might enlarge the scope of the project and increase the time needed to deploy a first version to production.
Orientador: Prof. Dr. Markus Endler
Coorientador: Prof. Dr. Marcos Kalinowski
Banca:
Prof. Dr. Sergio Colcher
Prof. Dr. Fabio Calefato
Prof. Dr. Alberto Sardinha (suplente)
Assista a defesa pelo link: https://puc-rio.zoom.us/j/4666190940?pwd=eUdNaDNSbnhEY3VWWU1DMGF0SkRjZz09
Defesa de Dissertação de Mestrado do aluno Matheus Moraes Ferreira.
Título da dissertação: Assistente virtual inteligente utilizando Transformers Generativos Pré-treinados
Resumo: Com a crescente popularização da inteligência artificial, principalmente no campo do processamento de linguagem natural, temos testemunhado um notável avanço nos Large Language Models (modelos de linguagem avançados), notadamente o GPT (Generative Pre-trained Transformer). Consequentemente, assistentes virtuais têm conquistado uma presença significativa em diversas áreas da vida contemporânea. Neste artigo, apresentaremos uma metodologia para desenvolver uma assistente virtual inteligente, baseada em um modelo generativo, capaz de compreender a língua portuguesa do Brasil, bem como o domínio específico da indústria do petróleo e gás. Essa assistente terá a capacidade de interpretar comandos textuais fornecidos pelos usuários e executar ações correspondentes em um sistema corporativo. Essa metodologia é o resultado de uma pesquisa bem detalhada, que abrangeu uma cuidadosa análise de diferentes modelos generativos disponíveis, buscando identificar aquele que melhor se adequasse aos requisitos da assistente virtual inteligente em português; a criação de um dataset representativo o suficiente para treinar a assistente com os conceitos necessários, e específicos do sistema e da indústria do petróleo, e um contínuo processo de refinamento que permitiu identificar eventuais falhas e aperfeiçoar a compreensão da assistente para garantir respostas precisas e direcionadas. Essa assistente terá a capacidade de interpretar comandos textuais fornecidos pelos usuários e executar ações correspondentes em um sistema corporativo. Também serão abordados neste trabalho os desafios e limitações inerentes aos modelos geradores, bem como estratégias para superá-los a fim de obter gerações mais precisas e seguras.
Orientador: Prof. Dr. Alberto Barbosa Raposo
Banca: Paulo Roberto da Motta Pires | Helio Côrtes Vieira Lopes | Melissa Lemos Cavaliére
Assista a defesa pelo link https://puc-rio.zoom.us/j/97444111563?pwd=czJnL2VXWWxQUVZDYVhKQzBGS0Jtdz09
Defesa de Tese de Doutorado do aluno Paulo Henrique Cardoso Alves.
Título da Tese: Enabling Data Regulation Evaluation through Intelligent and Normative Multiagent Systems Design
Resumo: O compartilhamento e o gerenciamento de dados pessoais são atividades desafiadoras devido à grande quantidade de dados gerados, carregados e digitalizados por cidadãos para utilizar serviços, online ou não. Esse desafio afeta não apenas os cidadãos, mas também os controladores e processadores de dados, que são responsáveis pela segurança, privacidade, anonimato e uso de dados fundados em bases legais e no propósito inicial quando os dados foram solicitados. Nesse cenário, a proteção e regulamentação de dados entram em cena para organizar esse ambiente, propondo direitos e deveres aos agentes envolvidos. No entanto, cada país é livre para criar e empregar sua própria regulamentação de dados, como o GDPR na União Europeia e a LGPD no Brasil. Portanto, embora o objetivo seja proteger os cidadãos, as regulamentações podem apresentar regras diferentes com base em sua jurisdição. Nesse cenário, as ontologias surgem para identificar as entidades e relacionamentos e mostrá-los em um nível de abstração elevado, facilitando o alinhamento das ontologias com diferentes regulamentações. Para isso, desenvolvemos um meta modelo baseado em ontologias da GDPR para possibilitar a representação da LGPD com foco na base legal do consentimento. Além disso, propusemos o GoDReP (Geração de Cenários de Regulamentação de Dados) para permitir que os atores representem a interpretação de sua legislação em um cenário de aplicação específico. Apresentamos então três cenários diferentes para exercitar a aplicação do GoDReP. Além disso, nesta tese, também propomos uma arquitetura de sistema multi agente normativo e inteligente (RegulAI) para representar os direitos e obrigações apresentados pela regulamentação de dados pessoais, bem como o processo de tomada de decisão dos agentes. Por fim, desenvolvemos um estudo de caso aplicando o RegulAI no cenário de open banking.
Orientador: Prof. Dr. Hélio Côrtes Vieira Lopes
Banca: Simone Diniz Junqueira Barbosa | Bruno Feijo | Renato Fontoura de Gusmão
Cerqueira | Flávia Maria Santoro | Guilherme da Franca Couto Fernandes de Almeida
Assista a defesa pelo link https://puc-rio.zoom.us/j/98581413366?pwd=NXgzTzNEYVdtT0NRR1BUNm1rUENWdz09
Autor: Gabriel de Araujo Carvalho
Orientador: Markus Endler
Data e Hora: 02/10/2023 às 08:00
Dia 29/09, às 15h, acontecerá o seminário “Sistemas interativos inteligentes na perspectiva da Interação Humano-Computador (IHC): desafios e oportunidades de pesquisa“, proferido pela professora Greis Silva-Calpa.
Seminário da Pós: “Sistemas interativos inteligentes na perspectiva da Interação Humano-Computador (IHC): desafios e oportunidades de pesquisa”
Resumo do Seminário: O rápido crescimento tecnológico em soluções inteligentes para uso humano vem impactando e transformando diversos setores da sociedade. Estas soluções incorporam novas abordagens de interação como reconhecimento de voz, detecção facial, detecção do movimento corporal e rastreamento ocular, permitindo uma interação usuário-sistema mais natural e intuitiva. Além disso, estas soluções destacam-se pelo uso de algoritmos de Inteligência Artificial (IA) capazes de processar dados em tempo real, identificar padrões, fornecer respostas personalizadas e se adaptar dinamicamente conforme o usuário, suas tarefas e contexto.
Porém, ainda existem diversos desafios na área que requerem pesquisa em profundidade, principalmente no que respeita ao design, desenvolvimento e avaliação de soluções interativas que priorizem a atenção em fatores humanos e não apenas no aprimoramento dos algoritmos de IA. Isto com o intuito de fornecer soluções interativas que respondam ao usuário conforme esperado, que apoiem suas tarefas e gerem respostas adequadas aos seus objetivos, priorizando também os aspectos éticos que garantam seus direitos e privacidade.
Este seminário apresenta desafios e oportunidades de pesquisa neste contexto, bem como trabalhos desenvolvidos por alunos da graduação e pós-graduação sob a orientação da profa. Greis Silva.
Conheça a Professora: Greis Silva-Calpa: Professora do quadro principal do Departamento de Informática da PUC-Rio e pesquisadora do Instituto Tecgraf/PUC-Rio. Suas áreas de atuação e interesses de pesquisa incluem a interseção entre Interação Humano-Computador (IHC) e Inteligência Artificial (IA), tais como interfaces inteligentes aplicadas na saúde, indústria e educação; técnicas de Machine Learning nos processos de IHC; design de IHC para sistemas inteligentes; jogos sérios, tecnologias assistivas, interação multimodal e computação afetiva.
Greis possui graduação em Licenciatura em Informática pela Universidad de Nariño (Colômbia, 2009), com título revalidado para Bacharel em Ciência da Computação pela Universidade Federal Fluminense (UFF, Brasil), fez mestrado em Informática (2012) e doutorado em Ciências – Informática pela PUC-Rio (2016) com ênfase em IHC. Realizou pós-doutorado no Laboratório Nacional de Computação Científica (LNCC) e no Departamento de Informática da PUC-Rio. Atuou como consultora acadêmico-tecnológica no Instituto Tecgraf/PUC-Rio.
Assista ao seminário pelo link: https://youtube.com/live/BlZvF2YagX4
Defesa de Dissertação de Mestrado do aluno Matheus Adler Soares Pinto.
Título da dissertação: A Method for Real-TimeGenerationofVideokefromvídeostreaming
Resumo: Sistemas tradicionais de karaokê frequentemente dependem de faixas de videoke pré-gravadas e estáticas, limitando a espontaneidade e personalização da experiência de karaokê. Esta dissertação propõe um método que busca romper com essas restrições, apresentando uma abordagem inovadora para a geração em tempo real de videoke (karaoke com vídeo) a partir de fontes de streaming de vídeo. O processo central, conhecido como Gerador de Videoke, gera eficientemente segmentos de videoke combinando métodos de processamento de vídeo e áudio. O método começa com o Módulo Separador, que divide o vídeo de música em segmentos correspondentes de vídeo e áudio, permitindo um processamento granular. O passo crucial de separação vocal segue, em que os segmentos de áudio individuais são processados usando o Modelo Pré-Treinado Demucs. Essa separação extrai os elementos vocais e de acompanhamento, um aspecto crucial na criação de videoke. Em seguida, os segmentos vocais são convertidos em transcrições precisas usando o Modelo Pré-Treinado Faster-Whisper, incorporando o CTranslate2 para inferência otimizada. As transcrições são enriquecidas com marcações de tempo em nível de palavra para aprimorar a sincronização das legendas. As transcrições, juntamente com suas marcações de tempo, são usadas para sincronizar as legendas com o vídeo usando um script especializado no Módulo SRT para gerar automaticamente arquivos SubRip (SRT). Essa sincronização inclui o destaque em nível de palavra para melhorar a percepção das legendas. Finalmente, o vídeo, as legendas e o acompanhamento musical são combinados em um segmento de videoke usando o FFMPEG, que serve como saída final para cada segmento durante o processo de geração automática de videoke. O método proposto aborda eficientemente o desafio de processar streams de vídeo em tempo real, permitindo uma comunicação contínua entre o servidor e o usuário, implementando um mecanismo de buffer para iniciar o processamento. Dessa forma, a exibição do videoke pode começar mesmo antes que o processamento completo do vídeo seja concluído, resultando em baixa latência. Essa abordagem em tempo real oferece uma solução abrangente e inovadora, proporcionando uma experiência de karaokê personalizada e sincronizada para os usuários.
Orientador: Prof. Dr. Sérgio Colcher
Banca: Julio Cesar Duarte | Antonio José Grandson Busson
Assista a defesa pelo link:
https://puc-rio.zoom.us/j/95830425817?pwd=aDdEMDRURWxnRDlLYlUzaXVKdzNiZz09
Autor: Matheus Moraes Ferreira
Orientador: Alberto Barbosa Raposo
Data e Hora: 02/10/2023 às 09:30
Local: Auditório do Tecgraf 6º andar
Modalidade: Hibrida
Defesa de Tese de Doutorado do aluno Matheus Telles Werner.
Título da Tese: Extracting Section Structure from Resumes in Brazilian Portuguese
Resumo: Esta tese apresenta um novo analisador de currículos projetado para reorganizar o conteúdo textual de qualquer currículo em sua estrutura de seção original. Nosso trabalho aborda dois desafios práticos negligenciados pela literatura existente: (i) garantir a ordem de leitura correta do texto recuperado do arquivo de currículo e (ii) extrair individualmente todas as seções, bem como as subseções de experiências de trabalho e educação. Levando em consideração a observação de que a maioria dos currículos adere a modelos básicos de documentos, reformulamos o problema da ordem de leitura como uma tarefa de identificação de modelos de documento. Nossos experimentos sugerem que mesmo um pequeno modelo amplamente utilizado como o EfficientNet-B0 pode identificar com precisão modelos de documento comuns. Além disso, propomos uma abordagem de rotulação de sequências que identifica simultaneamente todas as seções do currículo e algumas subseções. Implementamos e comparamos duas soluções baseadas nos conhecidos modelos CRF e BERT. Nossa avaliação fornece fortes evidências de que o CRF pode servir como uma alternativa prática ao BERT, dependendo do hardware e das restrições orçamentárias. Eles produzem resultados comparáveis em termos de identificação de seções de currículo, enquanto o BERT demonstra uma vantagem substancial ao identificar as subseções de educação e experiências de trabalho.
Orientador: Prof. Dr. Eduardo Sany Laber
Banca: Alberto Barbosa Raposo | Sérgio Colcher | Alexandre Roberto Renteria | Julio Cesar Duarte | Jose Alberto Rodrigues Pereira Sardinha
Assista a defesa pelo link https://puc-rio.zoom.us/j/95059756485?pwd=bFcxUTJkNmYwR0ROQ0VNOWxPMHpidz09