Defesa de Dissertação de Mestrado do aluno Dayson Nywton C. R. do Nascimento
Título da dissertação: Sumarização de artigos científicos em Português no domínio da Saúde.
Dia e horário: Dia 22 de setembro de 2023, às 14h
Resumo: Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM (Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a sumarização abstrata de textos longos em português. Para isso, construímos um corpus contendo uma coleção de 7.450 artigos científicos na área de ciências da saúde em português. Utilizamos esse corpus para ajustar o modelo BERT pré-treinado para o português brasileiro (BERTimbau). Em condições semelhantes, também treinamos um segundo modelo baseado em Memória de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação. Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score. A superioridade do modelo ajustado também destaca a importância dos modelos pré-treinados em uma ampla coleção de conteúdo textual geral para obter um melhor desempenho em tarefas específicas de domínio.
Orientador: Prof. Dr. Helio Côrtes Vieira Lopes.
Banca: Prof. Dr. Cassio Freitas Pereira de Almeida | Prof. Dr. Marcos Kalinowski | Prof. Dr. Jonatas dos Santos Grosman
Assista a defesa pelo link:
https://puc-rio.zoom.us/j/95862810471?pwd=YTZwa0VUM2ZxSHJGMGx1L0VGRjIxdz09