Autor: Daniel Luca Alves da Silva:
Orientador: Waldemar Celes Filho
Data e Hora: 19/04/2024 às 10:00
Local: Videoconferência
Título da dissertação: Geração de descrições de produtos a partir de avaliações de usuários usando um LLM
Resumo: No contexto de e-commerce, as descrições de produtos exercem grande influência na hora de efetuar uma compra. Descrições bem feitas devem idealmente informar um potencial consumidor sobre detalhes relevantes do produto, esclarecendo potenciais dúvidas e o incentivando a comprar. Gerar boas descrições, entretanto, é uma atividade custosa, uma vez que tradicionalmente exige esforço humano. Além disso, existe uma grande quantidade de produtos sendo lançados a cada dia, de forma que a atividade de geração de descrições de forma automática tem ganhado bastante atenção. Nesse sentido, esse trabalho apresenta uma nova metodologia para gerar descrições de produto no contexto de e-commerce, unindo a riqueza de informações contidas em comentários deixados por usuários com a capacidade generativa de LLMs. Mais especificamente, propomos um método que seleciona sentenças adequadas para aparecerem em uma descrição de produto, extraídas de avaliações deixadas por usuários. Em seguida, inserimos as sentenças selecionadas para compor o prompt para uma LLM com a instrução de gerar uma descrição de forma zero-shot. A fim de determinar o prompt para ser passado para o modelo generativo, conduzimos um estudo para determinar que tipo de descrições queremos gerar. Além disso, exploramos como a quantidade de sentenças utilizada afeta a descrição gerada, experimento 3 quantidades diferentes de sentenças. Por último,propomos comparar as descrições geradas com as originais postadas pelos anunciantes, conduzindo uma avaliação com anotadores humanos.
Orientador: Prof. Dr. Helio Côrtes Vieira Lopes
Co-orientador: Prof. Dr. Fernando Alberto Correia dos Santos Junior
Banca: Prof. Dr. Bruno Feijo | Prof. Dr. Marcos Kalinowski | Prof. Dr. Jonatas dos Santos Grosman | Profª Drª Simone Diniz Junqueira Barbosa
Assista a defesa pelo link: https://puc-rio.zoom.us/j/94066150600?pwd=a1VmVU9rK1JidUtSdmhtaE85RDl2UT09
Dia 12/04, às 15h, acontecerá o seminário “Challenges in Computer Graphics and AI for Digital Engineering“, proferido pelo professor Paulo Ivson.
Seminário da Pós: “Challenges in Computer Graphics and AI for Digital Engineering“
Resumo do Seminário: O avanço das tecnologias de Inteligência Artificial e Computação Gráfica nos dias de hoje possibilita a solução de desafios de engenharia de forma eficiente e inovadora. A palestra apresentará os principais conceitos de engenharia digital e exemplos reais de pesquisas da PUC-Rio em parceria com grandes empresas, onde novas tecnologias são desenvolvidas para tornar mais eficientes processos de digitalização, análise de grandes volumes de dados, visualização 3D, entre outros.
Conheça o Professor: Paulo Ivson é professor do quadro principal do Departamento de Informática da PUC-Rio. Atua como gerente de projetos no Instituto Tecgraf, onde coordena projetos de P&D&I produzindo softwares técnico-científicos para as indústrias de Óleo e Gás, Construção Civil, Manufatura e Logística. Os projetos envolvem colaborações com demais professores e órgãos da PUC-Rio como, por exemplo, os Departamentos de Informática, Engenharia Elétrica, Engenharia Industrial e Engenharia Civil, além de startups do Instituto Gênesis. Nesta atuação, Paulo Ivson promove a pesquisa e desenvolvimento de tecnologias inovadoras baseadas em conceitos da Indústria 4.0 e Building Information Modeling (BIM), como Gêmeos Digitais, com o objetivo de tornar mais eficientes e ecossustentáveis as etapas de projeto, construção e gestão do ciclo de vida de ativos. Paulo Ivson é Doutor (2018) e Mestre (2008) em Informática com ênfase em Computação Gráfica pela PUC-Rio, tendo se graduado em Engenharia de Computação pela PUC-Rio (2006).
Para assistir ao seminário, acesse o link: https://youtube.com/live/vb8t7Mz4-5o
Defesa de Dissertação de Mestrado do aluno Ney Barchilon.
Título da dissertação: Enriquecimento de Dados com Base em Estatísticas de Grafo de Similaridade para Melhorar o Desempenho em Modelos de ML Supervisionados de Classificação
Resumo: A otimização do desempenho dos modelos de aprendizado de máquina supervisionados representa um desafio constante, especialmente em contextos com conjuntos de dados de alta dimensionalidade ou com numerosos atributos correlacionados. Neste estudo, é proposto um método para o enriquecimento de conjuntos de dados tabulares, fundamentado na utilização de estatísticas provenientes de um grafo construído a partir da similaridade entre as instâncias presentes neste conjunto de dados, buscando capturar correlações estruturais entre esses dados. As instâncias assumem o papel de vértices no grafo, enquanto as conexões entre elas refletem sua similaridade. O conjunto de características originais (FO) é enriquecido com as estatísticas extraídas do grafo (FG) na busca pela melhora do poder preditivo dos modelos de aprendizado de máquina. O método foi avaliado em dez conjuntos de dados de distintas áreas de conhecimento, em dois cenários distintos, sobre sete modelos de aprendizado de máquina, comparando a predição sobre o conjunto de dados inicial (FO) com o conjunto de dados enriquecido com as estatísticas extraídas do seu grafo (FO+FG). Os resultados revelaram melhorias significativas na métrica de acurácia, com um aprimoramento médio de aproximadamente 4,9%. Além de sua flexibilidade para integração com outras técnicas de enriquecimento existentes, o método se apresenta como uma alternativa valiosa, sobretudo em situações em que os conjuntos de dados originais carecem das características necessárias para as abordagens tradicionais de enriquecimento com a utilização de grafo.
Orientador: Prof. Dr. Helio Côrtes Vieira Lopes
Banca: Prof. Dr. Marcos Kalinowski | Prof. Dr. Jefry Sastre Pérez | Profª Drª Tatiana Escovedo
Assista a defesa pelo link: https://puc-rio.zoom.us/j/98183420840?pwd=WHdraWpTRHVOK2xUcnNzdWVCWUh4dz09
Autor: Bruno Frederico Maciel Gutierrez
Orientador: Hélio Côrtes Vieira Lopes
Data e Hora: 12/04/2024 às 14:00
Local: Videoconferência
Autor: Ney Barchilon
Orientador: Hélio Côrtes Vieira Lopes
Data e Hora: 11/04/2024 às 08:00
Local: Videoconferência
Defesa de Dissertação de Mestrado do aluno Rodrigo Galdino Ximenes.
Título da dissertação: Issues that lead to code technical debt in machine learning systems
Resumo: [Context] Technical debt (TD) in machine learning (ML) systems, much like its counterpart in software engineering (SE), holds the potential to lead to future rework, posing risks to productivity, quality, and team morale. However, better understanding code-related issues leading to TD in ML systems is still a green field. [Objective] This paper aims to identify and discuss the relevance of code-related issues leading to TD in ML code throughout the ML life cycle. [Method] The study consisted of first compiling a list of potential issues that can lead to TD in ML code by analyzing the ML life cycle phases and their typical tasks. Thereafter, the list of issues was refined by assessing the prevalence and relevance of the issues leading to ML code TD through feedback collected from industry practitioners in two focus group sessions. [Results] The study compiled a list of 34 potential issues contributing to TD in the source code of ML systems. Through two focus group sessions with nine participants, this list was refined into 30 issues leading to ML code-related TD, with 18 considered highly relevant. The data pre-processing phase was the most critical, with nine issues considered highly relevant in potentially leading to severe ML code TD. Four issues were considered highly relevant in the phases of data collection, model creation and training. The final list of issues is available to the community. [Conclusion] The list can help to raise awareness on issues to be addressed throughout the ML life cycle to minimize accruing TD, helping to improve the maintainability of the ML system.
Orientador: Prof. Dr. Marcos Kalinowski
Banca: Prof. Dr. Tatiana Escovedo | Prof. Dr. Maria Teresa Baldassarre | Prof. Dr. Rodrigo Oliveira Spínola | Prof. Dr. Helio Côrtes Vieira Lopes
Assista a defesa pelo link: https://puc-rio.zoom.us/j/4666190940?pwd=eUdNaDNSbnhEY3VWWU1DMGF0SkRjZz09
Inscrições abertas para o Programa SPARK! Uma parceria entre o Laboratório ExACTa e a Eletrobras.
O SPARK do Innovation Grid é o primeiro programa da companhia que conecta o público universitário aos desafios tecnológicos e de negócio do setor de energia para promover o surgimento de novas soluções e desenvolver talentos. Os estudantes mais talentosos serão selecionados para formar equipes de desenvolvimento ágil, conhecer os desafios e negócios da companhia e se conectarem diretamente com os times de inovação da Eletrobras.
Não perca essa oportunidade!
Faça sua inscrição no link: https://www.exacta.inf.puc-rio.br/exactaspark/
Defesa de Dissertação de Mestrado do aluno Eduardo Roger Silva Nascimento.
Título da dissertação: Querying Databases with Natural Language: The use of Large Language Models for Text-to-SQL tasks.
Resumo: Text-to-SQL involves generating an SQL query based on a given relational database and a natural language question. While the leaderboards of well-known benchmarks indicate that Large Language Models (LLMs) excel in this task, they are evaluated on databases with simpler schemas. This dissertation investigates the performance of LLM-based text-to-SQL models on a complex and openly available database (Mondial) with a larger schema and a set of 100 Natural Language (NL) questions. Running under GPT-3.5 and GPT-4, the results show that LLM-based tools perform significantly less effectively than reported in these benchmarks and struggle with schema linking and joins, suggesting that the relational schema may not be suitable for LLMs. The dissertation proposes using LLM-friendly views and data descriptions for better accuracy in the text-to-SQL task. In the experiment, using the text-to- SQL tool with the best performance and cost from the previous experiment and another set with 100 questions over a real-world database, the results show that the use of LLM-friendly views and data samples, albeit not too difficult to implement, is sufficient to considerably improve the accuracy of the prompt strategy. The dissertation concludes with a discussion of the results obtained and suggests further approaches to simplify the text-to-SQL task.
Orientador: Prof. Dr. Marco Antonio Casanova
Banca: Prof. Dr. Vânia Maria Ponte Vidal | Prof. Dr. Melissa Lemos Cavaliére | Prof. Dr. Luiz André Portes Paes Leme
Assista a defesa pelo link: https://puc-rio.zoom.us/j/93760975741?pwd=YXVNcUQzTTlNa2ZlOVhyd1BhLzkwdz09
Autor: Eduardo Roger Silva Nascimento
Orientador: Marco Antonio Casanova
Data e Hora: 04/04/2024 às 14:00
Local: Videoconferência