Fechar

Live descomplica desafios de integração de dados em Data Science

Professor Marco Antonio Casanova falou sobre as dificuldades no acesso a diferentes bancos de dados e mostrou como trabalhá-los na Web

Você já imaginou sua vida sem sites de busca? Com uma simples pesquisa, conseguimos informações precisas em milésimos de segundos. Mas para que estas ferramentas funcionem de forma eficiente, é imprescindível que haja uma boa integração de dados. Este foi o tema da live realizada na sexta-feira (21) pelo Departamento de Informática (DI) da PUC-Rio, com participação do professor Marco Antonio Casanova

“Essa história de consulta por palavra-chave é bem interessante, mas tem muito mais que a gente pode fazer para melhorar a vida do usuário na hora de localizar os dados que ele precisa”, afirmou Casanova, que desenvolve pesquisas com ênfase em tecnologias que facilitem a interpretação de dados na web. “O campo da integração de dados pode ir muito além se adotarmos técnicas de machine learning mais atuais. Assim conseguimos resolver os mesmos problemas que existem há muito tempo de uma forma mais razoável”, defendeu o professor. 

Na live, Casanova explicou os desafios de integrar dados de fontes diferentes, especialmente ao lidar com grandes volumes e múltiplas origens. A questão surgiu na década de 1970, época em que os databases começaram a se popularizar, mas continua relevante até hoje, quando tratamos de aplicações de ciências de dados. 

Um estudo da empresa Crowdflower mostrou que, em um projeto de data science, gasta-se quase 80% do tempo coletando, limpando e organizando dados. Durante a apresentação, o professor identificou os quatro principais problemas a serem resolvidos no tratamento dos dados – alinhamento de esquemas, ligação de entidades, extração e fusão -, e sugeriu técnicas para resolver estes e outros conflitos.

Para quem quer se especializar em bancos de dados, Casanova dá a dica: “A interface de linguagem natural para bancos de dados existe há muito tempo, mas hoje temos tecnologias para fazer isso muito melhor do que há 5 anos. Essa é uma área em que vale a pena investir”.

A transmissão foi pelo YouTube e pelo Facebook do DI. Para revê-la, basta clicar nos links! 

Esta foi mais uma apresentação da série de seminários de pós-graduação do DI, que acontece toda sexta-feira, às 15h. Ative o lembrete do YouTube e venha participar com comentários e perguntas!