Ciência de Dados (Data Science) é uma área interdisciplinar que investiga modelos, métodos, processos, algoritmos e ferramentas que permitam extrair conhecimento e descobertas de dados heterogêneos (estruturados ou não), geralmente em grande volume e advindos de diferentes fontes.
Atualmente, esta área compreende as seguintes linhas de pesquisa:
Algoritmos e estruturas de dados para Ciência de Dados
Os conjuntos de dados com os quais precisamos lidar atualmente são caracterizados pelo seu grande volume, variedade e velocidade de produção e aquisição. Essas características trazem novos desafios para modelagem, processamento e análise de dados. Nesta linha investigam-se algoritmos e estruturas de dados eficientes para enfrentar esses desafios.
Análise visual e exploratória de dados
Análise visual e exploratória de dados busca combinar os pontos fortes de percepção e cognição humana com os pontos fortes de capacidade de processamento de sistemas computacionais. Nesta linha investigam-se formas de visualização e de interação com dados, bem como ambientes que deem suporte à atividade de análise visual.
Frameworks e ferramentas para Ciência de Dados
Trabalhar com dados envolve capturar dados heterogêneos de diferentes fontes, armazená-los, ajustá-los, visualizá-los, criar modelos e aplicar métodos para análise. Há uma grande demanda por ferramentas flexíveis, configuráveis e integradas para apoiar as diversas atividades envolvidas. Nesta linha investigam-se tais ferramentas, desde sua concepção até o seu desenvolvimento.
Métodos e modelos para Ciência de Dados
Com a crescente disponibilidade de dados heterogêneos, massivos e de aquisição contínua (“streaming”), abordagens existentes para modelagem e análise de dados podem se tornar inadequadas. Nesta linha de pesquisa investigam-se novos métodos e modelos para superar as limitações das abordagens atuais e lidar de forma mais eficaz com esses grandes volumes dados.