Artigo de Lifschitz e Hermann será publicado na BMC Bioinformatics

Selecionado como best paper na CMLS 2020, trabalho traz uma proposta de solução para problema relevante da bioinformática

A parceria entre pesquisadores das áreas de computação e biologia resultou num artigo premiado internacionalmente que será publicado na revista BMC Bioinformatics. Escrito pelos professores do Departamento de Informática (DI) da PUC-Rio Sérgio Lifschitz e Edward Hermann, pelo ex-aluno de doutorado Cristian Tristão e pelo pesquisador da Fiocruz Antonio Basílio de Miranda, o artigo “Relational Text-type for Biological Sequences” foi escolhido como best paper em um dos workshops da 39ª Conferência Internacional de Modelagem Conceitual (ER 2020). Lifschitz apresentou o trabalho no 1º Workshop Internacional em Modelagem Conceitual para Ciências da Vida (CMLS, na sigla em inglês) que fez parte da conferência. 

“É uma revista super top na área e vão fazer uma edição com os melhores artigos selecionados. O best paper certamente entrou e ficou isento da taxa de publicação, então foi um prêmio duplo”, comemora Lifschitz. “Ter o nosso trabalho reconhecido e valorizado pelos nossos pares é sempre um enorme motivo de alegria e realização, pois nos incentiva a prosseguir, buscando novos limites”, acrescenta Miranda. 

Segundo Lifschitz, a revista vai publicar a versão estendida do artigo contendo contribuições inéditas, inclusive os resultados práticos de um trabalho que ele já vem desenvolvendo com outros dois alunos da graduação do DI a partir do resultado alcançado na tese de doutorado de Cristian Tristão. 

O projeto consiste utilizar um tipo de dados presentes em Sistemas Gerenciadores de Bancos de Dados (SGBD) relacionais para armazenar sequências de aminoácidos que tentam representar matematicamente o DNA de uma espécie. Por serem sequências muito grandes, o processamento raramente é feito com a sequência inteira. Em geral, os biólogos guardam essas informações em arquivos-texto, porém, como o conjunto de dados é muito grande, gera um problema de representação destas very large sequences (sequências muito grandes). Como não há muitas soluções prontas para o armazenamento destas  sequências biológicas em bancos de dados, Tristão propôs em sua tese o armazenamento em banco de dados relacional, usando o tipo text, que permite armazenar a quantidade de dados das sequências biológicas sem preocupação com o tamanho.

“O Antonio (Fiocruz) trouxe o problema para a gente, foi nos dizendo quais as funções eram necessárias e nós fomos pensando como desenvolver essas funções específicas para lidar com textos nesta área particular da ciência, que é a bioinformática. O Hermann ajudou a orientar na formalização e deu muitas sugestões na defesa de tese do Cristian. Cabe ressaltar que além de armazenar, desenvolvemos um conjunto de soluções com funções que o biólogo precisa, voltada para aquele domínio de aplicação. Isso acabou se mostrando um sucesso”, conta Lifschitz. 

A pesquisa segue com outros dois alunos Sergio Gustavo M. P. Moreira e Alexandre Wanick Vieira, sob orientação de Lifschitz. Eles trabalham na reimplementação de funções antigas, desenvolvimento de novas funções e uma interface tipo web para os usuários. “Esses alunos estão desenvolvendo a ferramenta e colocando o código público no GitHub, para quem quiser baixar e usar”, afirma o orientador.

Continue reading