Artigo curto de mestrando do DI ganha menção honrosa no SBBD 2020

Short paper de Alexandre Novello apresenta nova solução para problema de agregação na interface de linguagem natural para bancos de dados

Assistentes virtuais como o do Google, a Siri da Apple, a Alexa da Amazon ou a Cortana da Microsoft, vêm ganhando cada vez mais popularidade e estão aptos a responderem as mais diversas perguntas dos usuários. Mas para entregar os resultados eles precisam de sistemas que respondem automaticamente às perguntas feitas em linguagem natural. E é sobre esse assunto, chamado Question Answering (QA), o artigo que garantiu a Alexandre Novello, aluno de mestrado do Departamento de Informática (DI) da PUC-Rio o prêmio de Menção Honrosa no SBBD 2020 (35ª edição do Simpósio Brasileiro de Bancos de Dados).

Sob orientação do professor Marco Antonio Casanova, Novello desenvolveu um módulo chamado de GLAMORISE (GeneraL Aggregation MOdule for RelatIonal databaSEs), uma nova solução para um problema da área de Natural Language Interface to Database (NLIDB). “Nossa ideia foi criar um módulo que possa ser usado pelos sistemas existentes para responder perguntas relacionadas à agregação. Escolhemos agregação por ser um tipo de pergunta que estes sistemas geralmente não lidam bem”, explicou o pesquisador.

Essa “agregação” citada por Novello é necessária quando a pergunta exige não apenas uma uma consulta ao banco de dados para listar o resultado, mas sim uma operação de sintetização no resultado. “A solução que desenvolvemos foi feita para a língua inglesa e envolve o uso de palavras chaves e como elas aparecem na pergunta, para isso usamos uma árvore de dependência sintática e o Part-Of-Speech (POS) de cada palavra que seria a classe gramatical. Para realizar esta tarefa usamos a biblioteca spaCy e a linguagem Python”, disse.

Submetido na categoria melhor artigo curto do SBBD 2020 — que aconteceu de 28 de setembro a 2 de outubro, totalmente online — o GLAMORISE foi apresentado em um artigo de seis páginas e levou o certificado de Menção Honrosa. Para Alexandre, a premiação foi uma grata surpresa. “Eu voltei para a academia recentemente, minha vida normal é na indústria. Essa foi a primeira vez que submeti um paper e foi uma surpresa total. Recebi dezenas de mensagens por celular, dando parabéns. Eu não tinha a menor expectativa de nada, os trabalhos do SBBD são muito bons!”, exclamou. 

Novello começou a pesquisa para o GLAMORISE em abril de 2019 e adianta que a conclusão será sua dissertação de mestrado. “Também pretendemos publicar um full paper descrevendo o trabalho completo”, afirmou. Para saber mais, assista à apresentação virtual feita pelo próprio Alexandre no SBBD, que está disponível no canal do DI no YouTube.

Continue reading

Data Science: ‘É importante saber falar a língua dos dados’, diz Hélio Lopes, em live

Cientista de dados deve ser criativo, ter mente aberta e analítica, interesse humano e saber negociar

Para atingir a transformação digital, é importantíssimo uma mudança cultural. Foi com esse conceito que o professor Hélio Lopes, do Departamento de Informática (DI) da PUC-Rio, começou sua fala no seminário “Pesquisa em Ciência de Dados: A Escalada para a Valorização dos Dados”, transmitido ao vivo pelo Youtube na última sexta-feira (11). Com mais de 100 participantes conectados simultaneamente, o evento marcou a estreia da série de lives do DI como um sucesso e segue disponível online.

“As empresas estão todas interessadas em transformação digital. Ainda mais agora, neste período de pandemia, em que se verificou que automatizar processos, melhorar a comunicação de uma forma digital entre as pessoas com o uso de tecnologia é algo muito importante”, disse Hélio, ao apresentar o tema. Ele ressaltou “falar a língua dos dados” é hoje, para muitas profissões e setores da indústria, uma habilidade tão necessária quanto foi o domínio da língua inglesa no século passado.

Com o objetivo de transformar dados em informação e esta, por sua vez, em conhecimento, a Data Science — que foi traduzida para o português como “ciência de dados”, mas segundo o professor melhor seria ser chamada de “ciência por dados” — tem múltiplas aplicações. Com diferentes fundamentos e técnicas, abarca desde aplicativos como Waze até um sistema de busca semântica em cenas de novela através de reconhecimento facial. 

“Você cria uma ontologia, um sistema de acesso à base de dados, de forma eficiente. Mas para isso tem que ter um algoritmo que consiga realmente reconstruir sem erro dentro desse contexto o reconhecimento de cada artista em cada cena de todas as novelas do legado que existe na Globo, por exemplo”, disse Hélio. Esse projeto, “Globo Face Stream: A System for Video Meta-data Generation in an Entertainment Industry Setting”, foi desenvolvido pelo DI da PUC-Rio com alunos que atuam na Globo.com e recebeu o prêmio “Best Paper Award Certificate” neste ano.

Habilidades do Cientista de Dados

Lopes disse que, no Departamento de Informática da PUC, “ao formar esses novos cientistas de dados, queremos formar um líder em ciência de dados”. E elencou as habilidades necessárias para esse ideal de profissional, que precisa: 

  • Ter mente aberta
  • Ser criativo
  • Ter interesse humano
  • Ter poder analítico
  • Capacidade de fazer negócios

A combinação desses fatores em um cientista de dados atende ao maior interesse da indústria, que é melhorar seus negócios com o uso de dados para auxiliar as tomadas de decisão, segundo o professor. 

Dando sequência à série de lives do DI, que vai até dezembro, na próxima sexta (18), às 15h, o professor Edward Hermann falará sobre “Compressão de provas lógicas e a conjectura NP=PSPACE”, no YouTube do DI PUC Rio. Não perca!