Por Dentro do DI: BioBD une biologia computacional a bancos de dados

Coordenador Sérgio Lifschitz com alunos e ex-alunos do BioBD no Simpósio Brasileiro de Bancos de Dados de 2018. Foto: Arquivo Pessoal

Laboratório realiza parcerias com instituições, como Fiocruz, Inca, UFRJ e UNB, para ajudar no desenvolvimento de pesquisas

 

Em tempos de pandemia da Covid-19, as pesquisas na área das ciências biológicas vêm ganhando destaque e gerando conhecimentos fundamentais para a sociedade. Já parou para pensar em como a computação pode contribuir para esses resultados? 

 

O Laboratório de Bioinformática e Bancos de Dados (BioBD), do Departamento de Informática (DI) da PUC-Rio, conduz pesquisas que unem biologia computacional e bancos de dados para desenvolver ferramentas que ajudem os cientistas. O BioBD realiza parcerias com pesquisadores e laboratórios de instituições e universidades, como Fiocruz, INCA, UFRJ, UERJ e UnB.

 

“Nossa contribuição permite que os cientistas desenvolvam produtos e pesquisas que vão ter efeitos diretos e extremamente relevantes à população, como no tratamento de doenças. Com a nossa colaboração, através de conhecimentos em modelagem e técnicas computacionais, é possível gerar resultados com eficiência e reprodutibilidade”, destaca o coordenador do Núcleo de Inovação Tecnológica, professor Sérgio Lifschitz.

 

O trabalho do BioBD envolve ainda questões centrais de pesquisa de banco de dados, particularmente sistemas de banco de dados autônomos, autogerenciados e autoajustáveis. 

 

As pesquisas do laboratório começaram em 1996, inicialmente abrigadas no LabPar (Laboratório de Paralelismo). No ano 2000, foi criado o LabBio, dando foco à bioinformática, até finalmente chegar, em 2006, ao nome atual, que enfatiza a ação nas duas áreas de pesquisa e desenvolvimento.

 

Grandes parcerias

As pesquisas científicas realizadas em laboratórios de biologia molecular ou bioquímica, conhecidos como wet labs, têm custo elevado, em geral, porque demandam produtos e reagentes que encarecem o processo. A bioinformática é uma solução para otimizar e viabilizar as pesquisas, acelerando seus resultados e reduzindo seus custos financeiros. Nos dry labs, onde se realizam análises matemáticas computacionais ou aplicadas, simulações permitem descartar a necessidade de várias etapas que seriam custosas pelo método tradicional, sem o apoio do computador.

 

“À medida que a bioinformática evoluiu, muita coisa começou a ser simulada em laboratório. Então, era mais barato simular a pesquisa computacionalmente do que gastar dinheiro com experimentos nos wet labs”, explica o professor, que é especialista em bancos de dados aplicados à bioinformática.

 

O coordenador conta que um problema comum a muitas instituições científicas é a dificuldade em gerenciar, organizar e visualizar grandes volumes de dados de maneira rápida e eficiente, mesmo com a disponibilidade de máquinas robustas e com maior poder computacional. O BioBD desenvolve soluções computacionais para este e outros problemas de banco de dados. 

Professor Sérgio Lifschitz. Foto: Divulgação

“Um aspecto importante do BioBD é que nos preocupamos em como as nossas contribuições do lado da computação podem ajudar em problemas reais enfrentados pelos biólogos. É uma parceria que acaba trazendo evoluções em ambas as áreas”, afirma o professor Lifschitz.

 

A primeira parceria foi com a Fundação Oswaldo Cruz, em 1994, no início do projeto Genoma, que permitiu a codificação da sequência completa de DNA dos seres humanos. Esta foi uma oportunidade de conduzir as teorias na área de banco de dados à aplicação prática nos laboratórios através de programas de algoritmos e soluções computacionais que simulam os fenômenos biológicos e bioquímicos. A cooperação entre os dois institutos segue ativa e foi formalizada neste ano. 

 

Inicialmente, a pesquisa era focada em genomas de espécies ligadas às doenças tropicais, como o Trypanosoma cruzi, mas vem se expandindo para novas áreas. “Hoje, estamos desenvolvendo um trabalho que chamamos de ‘bioinformática 2.0’ e uma modelagem formal alternativa para o dogma central da biologia”, informa Lifschitz. Os professores do DI Edward Hermann Haeusler e Luiz Fernando Bessa Seibel também participam da iniciativa.

 

O BioBD contribui ainda com o Instituto de Bioquímica Médica da UFRJ, especialmente em estudos do genoma e transcriptoma da cana-de-açúcar. Lifschitz ressalta que estes resultados são relevantes na agricultura e no mercado de combustíveis, gerando impactos para a economia brasileira.

 

Outros projetos

Além da bioinformática, o BioBD é direcionado a outras aplicações interdisciplinares da engenharia de dados. Diversos projetos já foram desenvolvidos, como o BioBD ENEM, que modela o banco de dados para processar estatísticas do Exame Nacional do Ensino Médio. 

 

As planilhas liberadas pelo INEP com as notas de todos os candidatos que fizeram o ENEM a cada ano são importadas para um banco de dados relacional, já que são volumosas e é quase inviável para um computador comum abri-las. A partir deste banco, são gerados múltiplos gráficos que são de interesse para coordenadores, professores e alunos envolvidos com o Exame Nacional do Ensino Médio.

 

Outro sistema desenvolvido pelo time do BioBD é o Busc@NIMA, que faz uma indexação de dados obtidos dos currículos Lattes de todos os professores da PUC e, através de uma plataforma web, permite aos usuários encontrar quem são os pesquisadores que tratam sobre determinados assuntos, facilitando a sinergia e colaborações futuras. 

 

O BioBD desenvolve ainda protótipos funcionais, já premiados no Simpósio Brasileiro de Bancos de Dados, como o sistema DBX e a ferramenta Outer-tuning, baseada em uma ontologia inovadora especializada em sintonia fina de bancos de dados relacionais.

 

Com a palavra, os alunos

Professor Sérgio Lifschitz ao lado das alunas Mariana Salgueiro (centro) e Andrea Mourelo (direita). Foto: Arquivo Pessoal

Os alunos que passaram pelo laboratório consideram a experiência enriquecedora e guardam com afeto as lembranças dos projetos e das equipes. É o que conta a ex-aluna espanhola Andrea Mourelo, que cursou um duplo diploma em parceria entre a PUC-Rio e a École Centrale Paris, na França.

 

“Foi uma experiência incrível! Aprendi muito sobre banco de dados, modelagem, desenvolvimento web, e também sobre a linguagem PHP. Sem dúvida, essa experiência fez a diferença e me ajudou a arrumar o meu emprego atual em Paris, além de me fazer crescer muito pessoalmente”, divide Andrea, que participou do projeto Busc@NIMA.

 

O laboratório também foi importante para o ex-aluno Eric Grinstein, que contribuiu com o BioBD ENEM: “Olhando para trás, vejo que aprendi muito no BioBD e tento levar em cada novo projeto a disciplina de modelar um problema antes de começar a resolvê-lo, o que sempre trás muitas vantagens”, afirma Grinstein. Eric já trabalhou como engenheiro de dados na Microsoft e como engenheiro de software na OLX, e hoje faz doutorado no Imperial College, em Londres.

 

A aluna de mestrado do DI Mariana Salgueiro, que colabora com o BioBD e é responsável pelo desenvolvimento do Busc@NIMA, reforça a importância do laboratório na formação dela. “Além do aprendizado que eu tive pra me tornar a profissional que eu sou hoje, foi no laboratório também que eu fiz vários amigos que vou levar pro resto da vida. O ambiente é muito amigável e muito propício para você aprender coisas novas ou colocar o que foi aprendido em prática. O professor Sérgio sempre traz novos projetos e novos desafios para os estagiários”.

Live descomplica desafios de integração de dados em Data Science

Professor Marco Antonio Casanova falou sobre as dificuldades no acesso a diferentes bancos de dados e mostrou como trabalhá-los na Web

Você já imaginou sua vida sem sites de busca? Com uma simples pesquisa, conseguimos informações precisas em milésimos de segundos. Mas para que estas ferramentas funcionem de forma eficiente, é imprescindível que haja uma boa integração de dados. Este foi o tema da live realizada na sexta-feira (21) pelo Departamento de Informática (DI) da PUC-Rio, com participação do professor Marco Antonio Casanova

“Essa história de consulta por palavra-chave é bem interessante, mas tem muito mais que a gente pode fazer para melhorar a vida do usuário na hora de localizar os dados que ele precisa”, afirmou Casanova, que desenvolve pesquisas com ênfase em tecnologias que facilitem a interpretação de dados na web. “O campo da integração de dados pode ir muito além se adotarmos técnicas de machine learning mais atuais. Assim conseguimos resolver os mesmos problemas que existem há muito tempo de uma forma mais razoável”, defendeu o professor. 

Na live, Casanova explicou os desafios de integrar dados de fontes diferentes, especialmente ao lidar com grandes volumes e múltiplas origens. A questão surgiu na década de 1970, época em que os databases começaram a se popularizar, mas continua relevante até hoje, quando tratamos de aplicações de ciências de dados. 

Um estudo da empresa Crowdflower mostrou que, em um projeto de data science, gasta-se quase 80% do tempo coletando, limpando e organizando dados. Durante a apresentação, o professor identificou os quatro principais problemas a serem resolvidos no tratamento dos dados – alinhamento de esquemas, ligação de entidades, extração e fusão -, e sugeriu técnicas para resolver estes e outros conflitos.

Para quem quer se especializar em bancos de dados, Casanova dá a dica: “A interface de linguagem natural para bancos de dados existe há muito tempo, mas hoje temos tecnologias para fazer isso muito melhor do que há 5 anos. Essa é uma área em que vale a pena investir”.

A transmissão foi pelo YouTube e pelo Facebook do DI. Para revê-la, basta clicar nos links! 

Esta foi mais uma apresentação da série de seminários de pós-graduação do DI, que acontece toda sexta-feira, às 15h. Ative o lembrete do YouTube e venha participar com comentários e perguntas!

Fundamental para data science, integração de dados é tema de live

Professor Marco Antonio Casanova fala sobre as dificuldades no acesso a diferentes bancos de dados

 

Como acessar dados originados por diferentes fontes? Este é um problema antigo, que tem um grande impacto em projetos de data science. Com as novas transformações digitais, surge no mercado uma demanda por profissionais especializados em tópicos fundamentais da área de Ciência de Dados. Em live realizada nesta sexta-feira (21), às 15h, pelo Departamento de Informática (DI) da PUC-Rio, o professor Marco Antonio Casanova, vai falar sobre o tema. A transmissão será pelo YouTube e pelo Facebook do DI.

 

“O problema da integração está no cerne da Ciência de Dados”, alerta Casanova, que desenvolve pesquisa em várias áreas de banco de dados, com ênfase em tecnologias que facilitem a divulgação e interpretação de dados na Web. Na live, Casanova vai dar orientações sobre como trabalhar dados na Web de um jeito que eles possam ser lidos e interpretados pelas aplicações com mais eficiência.

 

A apresentação integra a série de seminários de pós-graduação do DI, que acontece toda sexta-feira, às 15h. Ative o lembrete do YouTube e venha participar com comentários e perguntas!

Artigo de Lifschitz e Hermann será publicado na BMC Bioinformatics

Selecionado como best paper na CMLS 2020, trabalho traz uma proposta de solução para problema relevante da bioinformática

A parceria entre pesquisadores das áreas de computação e biologia resultou num artigo premiado internacionalmente que será publicado na revista BMC Bioinformatics. Escrito pelos professores do Departamento de Informática (DI) da PUC-Rio Sérgio Lifschitz e Edward Hermann, pelo ex-aluno de doutorado Cristian Tristão e pelo pesquisador da Fiocruz Antonio Basílio de Miranda, o artigo “Relational Text-type for Biological Sequences” foi escolhido como best paper em um dos workshops da 39ª Conferência Internacional de Modelagem Conceitual (ER 2020). Lifschitz apresentou o trabalho no 1º Workshop Internacional em Modelagem Conceitual para Ciências da Vida (CMLS, na sigla em inglês) que fez parte da conferência. 

“É uma revista super top na área e vão fazer uma edição com os melhores artigos selecionados. O best paper certamente entrou e ficou isento da taxa de publicação, então foi um prêmio duplo”, comemora Lifschitz. “Ter o nosso trabalho reconhecido e valorizado pelos nossos pares é sempre um enorme motivo de alegria e realização, pois nos incentiva a prosseguir, buscando novos limites”, acrescenta Miranda. 

Segundo Lifschitz, a revista vai publicar a versão estendida do artigo contendo contribuições inéditas, inclusive os resultados práticos de um trabalho que ele já vem desenvolvendo com outros dois alunos da graduação do DI a partir do resultado alcançado na tese de doutorado de Cristian Tristão. 

O projeto consiste utilizar um tipo de dados presentes em Sistemas Gerenciadores de Bancos de Dados (SGBD) relacionais para armazenar sequências de aminoácidos que tentam representar matematicamente o DNA de uma espécie. Por serem sequências muito grandes, o processamento raramente é feito com a sequência inteira. Em geral, os biólogos guardam essas informações em arquivos-texto, porém, como o conjunto de dados é muito grande, gera um problema de representação destas very large sequences (sequências muito grandes). Como não há muitas soluções prontas para o armazenamento destas  sequências biológicas em bancos de dados, Tristão propôs em sua tese o armazenamento em banco de dados relacional, usando o tipo text, que permite armazenar a quantidade de dados das sequências biológicas sem preocupação com o tamanho.

“O Antonio (Fiocruz) trouxe o problema para a gente, foi nos dizendo quais as funções eram necessárias e nós fomos pensando como desenvolver essas funções específicas para lidar com textos nesta área particular da ciência, que é a bioinformática. O Hermann ajudou a orientar na formalização e deu muitas sugestões na defesa de tese do Cristian. Cabe ressaltar que além de armazenar, desenvolvemos um conjunto de soluções com funções que o biólogo precisa, voltada para aquele domínio de aplicação. Isso acabou se mostrando um sucesso”, conta Lifschitz. 

A pesquisa segue com outros dois alunos Sergio Gustavo M. P. Moreira e Alexandre Wanick Vieira, sob orientação de Lifschitz. Eles trabalham na reimplementação de funções antigas, desenvolvimento de novas funções e uma interface tipo web para os usuários. “Esses alunos estão desenvolvendo a ferramenta e colocando o código público no GitHub, para quem quiser baixar e usar”, afirma o orientador.

Continue reading

Artigo curto de mestrando do DI ganha menção honrosa no SBBD 2020

Short paper de Alexandre Novello apresenta nova solução para problema de agregação na interface de linguagem natural para bancos de dados

Assistentes virtuais como o do Google, a Siri da Apple, a Alexa da Amazon ou a Cortana da Microsoft, vêm ganhando cada vez mais popularidade e estão aptos a responderem as mais diversas perguntas dos usuários. Mas para entregar os resultados eles precisam de sistemas que respondem automaticamente às perguntas feitas em linguagem natural. E é sobre esse assunto, chamado Question Answering (QA), o artigo que garantiu a Alexandre Novello, aluno de mestrado do Departamento de Informática (DI) da PUC-Rio o prêmio de Menção Honrosa no SBBD 2020 (35ª edição do Simpósio Brasileiro de Bancos de Dados).

Sob orientação do professor Marco Antonio Casanova, Novello desenvolveu um módulo chamado de GLAMORISE (GeneraL Aggregation MOdule for RelatIonal databaSEs), uma nova solução para um problema da área de Natural Language Interface to Database (NLIDB). “Nossa ideia foi criar um módulo que possa ser usado pelos sistemas existentes para responder perguntas relacionadas à agregação. Escolhemos agregação por ser um tipo de pergunta que estes sistemas geralmente não lidam bem”, explicou o pesquisador.

Essa “agregação” citada por Novello é necessária quando a pergunta exige não apenas uma uma consulta ao banco de dados para listar o resultado, mas sim uma operação de sintetização no resultado. “A solução que desenvolvemos foi feita para a língua inglesa e envolve o uso de palavras chaves e como elas aparecem na pergunta, para isso usamos uma árvore de dependência sintática e o Part-Of-Speech (POS) de cada palavra que seria a classe gramatical. Para realizar esta tarefa usamos a biblioteca spaCy e a linguagem Python”, disse.

Submetido na categoria melhor artigo curto do SBBD 2020 — que aconteceu de 28 de setembro a 2 de outubro, totalmente online — o GLAMORISE foi apresentado em um artigo de seis páginas e levou o certificado de Menção Honrosa. Para Alexandre, a premiação foi uma grata surpresa. “Eu voltei para a academia recentemente, minha vida normal é na indústria. Essa foi a primeira vez que submeti um paper e foi uma surpresa total. Recebi dezenas de mensagens por celular, dando parabéns. Eu não tinha a menor expectativa de nada, os trabalhos do SBBD são muito bons!”, exclamou. 

Novello começou a pesquisa para o GLAMORISE em abril de 2019 e adianta que a conclusão será sua dissertação de mestrado. “Também pretendemos publicar um full paper descrevendo o trabalho completo”, afirmou. Para saber mais, assista à apresentação virtual feita pelo próprio Alexandre no SBBD, que está disponível no canal do DI no YouTube.

Continue reading