Artigo de Lifschitz e Hermann será publicado na BMC Bioinformatics

Selecionado como best paper na CMLS 2020, trabalho traz uma proposta de solução para problema relevante da bioinformática

A parceria entre pesquisadores das áreas de computação e biologia resultou num artigo premiado internacionalmente que será publicado na revista BMC Bioinformatics. Escrito pelos professores do Departamento de Informática (DI) da PUC-Rio Sérgio Lifschitz e Edward Hermann, pelo ex-aluno de doutorado Cristian Tristão e pelo pesquisador da Fiocruz Antonio Basílio de Miranda, o artigo “Relational Text-type for Biological Sequences” foi escolhido como best paper em um dos workshops da 39ª Conferência Internacional de Modelagem Conceitual (ER 2020). Lifschitz apresentou o trabalho no 1º Workshop Internacional em Modelagem Conceitual para Ciências da Vida (CMLS, na sigla em inglês) que fez parte da conferência. 

“É uma revista super top na área e vão fazer uma edição com os melhores artigos selecionados. O best paper certamente entrou e ficou isento da taxa de publicação, então foi um prêmio duplo”, comemora Lifschitz. “Ter o nosso trabalho reconhecido e valorizado pelos nossos pares é sempre um enorme motivo de alegria e realização, pois nos incentiva a prosseguir, buscando novos limites”, acrescenta Miranda. 

Segundo Lifschitz, a revista vai publicar a versão estendida do artigo contendo contribuições inéditas, inclusive os resultados práticos de um trabalho que ele já vem desenvolvendo com outros dois alunos da graduação do DI a partir do resultado alcançado na tese de doutorado de Cristian Tristão. 

O projeto consiste utilizar um tipo de dados presentes em Sistemas Gerenciadores de Bancos de Dados (SGBD) relacionais para armazenar sequências de aminoácidos que tentam representar matematicamente o DNA de uma espécie. Por serem sequências muito grandes, o processamento raramente é feito com a sequência inteira. Em geral, os biólogos guardam essas informações em arquivos-texto, porém, como o conjunto de dados é muito grande, gera um problema de representação destas very large sequences (sequências muito grandes). Como não há muitas soluções prontas para o armazenamento destas  sequências biológicas em bancos de dados, Tristão propôs em sua tese o armazenamento em banco de dados relacional, usando o tipo text, que permite armazenar a quantidade de dados das sequências biológicas sem preocupação com o tamanho.

“O Antonio (Fiocruz) trouxe o problema para a gente, foi nos dizendo quais as funções eram necessárias e nós fomos pensando como desenvolver essas funções específicas para lidar com textos nesta área particular da ciência, que é a bioinformática. O Hermann ajudou a orientar na formalização e deu muitas sugestões na defesa de tese do Cristian. Cabe ressaltar que além de armazenar, desenvolvemos um conjunto de soluções com funções que o biólogo precisa, voltada para aquele domínio de aplicação. Isso acabou se mostrando um sucesso”, conta Lifschitz. 

A pesquisa segue com outros dois alunos Sergio Gustavo M. P. Moreira e Alexandre Wanick Vieira, sob orientação de Lifschitz. Eles trabalham na reimplementação de funções antigas, desenvolvimento de novas funções e uma interface tipo web para os usuários. “Esses alunos estão desenvolvendo a ferramenta e colocando o código público no GitHub, para quem quiser baixar e usar”, afirma o orientador.

Continue reading

Artigo curto de mestrando do DI ganha menção honrosa no SBBD 2020

Short paper de Alexandre Novello apresenta nova solução para problema de agregação na interface de linguagem natural para bancos de dados

Assistentes virtuais como o do Google, a Siri da Apple, a Alexa da Amazon ou a Cortana da Microsoft, vêm ganhando cada vez mais popularidade e estão aptos a responderem as mais diversas perguntas dos usuários. Mas para entregar os resultados eles precisam de sistemas que respondem automaticamente às perguntas feitas em linguagem natural. E é sobre esse assunto, chamado Question Answering (QA), o artigo que garantiu a Alexandre Novello, aluno de mestrado do Departamento de Informática (DI) da PUC-Rio o prêmio de Menção Honrosa no SBBD 2020 (35ª edição do Simpósio Brasileiro de Bancos de Dados).

Sob orientação do professor Marco Antonio Casanova, Novello desenvolveu um módulo chamado de GLAMORISE (GeneraL Aggregation MOdule for RelatIonal databaSEs), uma nova solução para um problema da área de Natural Language Interface to Database (NLIDB). “Nossa ideia foi criar um módulo que possa ser usado pelos sistemas existentes para responder perguntas relacionadas à agregação. Escolhemos agregação por ser um tipo de pergunta que estes sistemas geralmente não lidam bem”, explicou o pesquisador.

Essa “agregação” citada por Novello é necessária quando a pergunta exige não apenas uma uma consulta ao banco de dados para listar o resultado, mas sim uma operação de sintetização no resultado. “A solução que desenvolvemos foi feita para a língua inglesa e envolve o uso de palavras chaves e como elas aparecem na pergunta, para isso usamos uma árvore de dependência sintática e o Part-Of-Speech (POS) de cada palavra que seria a classe gramatical. Para realizar esta tarefa usamos a biblioteca spaCy e a linguagem Python”, disse.

Submetido na categoria melhor artigo curto do SBBD 2020 — que aconteceu de 28 de setembro a 2 de outubro, totalmente online — o GLAMORISE foi apresentado em um artigo de seis páginas e levou o certificado de Menção Honrosa. Para Alexandre, a premiação foi uma grata surpresa. “Eu voltei para a academia recentemente, minha vida normal é na indústria. Essa foi a primeira vez que submeti um paper e foi uma surpresa total. Recebi dezenas de mensagens por celular, dando parabéns. Eu não tinha a menor expectativa de nada, os trabalhos do SBBD são muito bons!”, exclamou. 

Novello começou a pesquisa para o GLAMORISE em abril de 2019 e adianta que a conclusão será sua dissertação de mestrado. “Também pretendemos publicar um full paper descrevendo o trabalho completo”, afirmou. Para saber mais, assista à apresentação virtual feita pelo próprio Alexandre no SBBD, que está disponível no canal do DI no YouTube.

Continue reading