Live do DI aborda pesquisa survey em engenharia de software

Professor Marcos Kalinowski vai falar de lições a partir de experiências internacionais

 

Frequentemente usadas em engenharia de software, as pesquisas survey são extremamente relevantes na área tecnológica. No entanto, a falta de debates metodológicos gera lacunas que podem comprometer a validade dos levantamentos como um todo. 

 

A próxima live do Departamento de Informática (DI), nesta sexta-feira (18), às 15h, pelo YouTube e Facebook, vai expor os fundamentos da pesquisa survey e trazer uma sumarização de suas melhores práticas. O seminário vai ser apresentado pelo coordenador de pós-graduação Marcos Kalinowski, que é referência em metodologia científica, experimentação e pesquisa aplicada na área de engenharia de software.

 

O professor vai compartilhar lições importantes e desafiadoras a partir de experiências com surveys internacionais de larga escala. Na live, serão discutidos aspectos como amostragem, coleta de dados e análise estatística e qualitativa.

 

Surveys são instrumentos importantes para capturar o estado da prática e fenômenos relacionados à engenharia de software na indústria, tanto para explorar novas hipóteses quanto para confirmá-las. Entretanto, falhas no planejamento e na análise dos dados podem levar a um resultado nulo, irrelevante”, afirma Kalinowski.

 

Venha assistir e participar do seminário, mande dúvidas e comentários! 

Clique aqui para acompanhar. E inscreva-se no nosso canal do YouTube (youtube.com/dipucrio) para não ficar de fora das novidades!

Live descomplica desafios de integração de dados em Data Science

Professor Marco Antonio Casanova falou sobre as dificuldades no acesso a diferentes bancos de dados e mostrou como trabalhá-los na Web

Você já imaginou sua vida sem sites de busca? Com uma simples pesquisa, conseguimos informações precisas em milésimos de segundos. Mas para que estas ferramentas funcionem de forma eficiente, é imprescindível que haja uma boa integração de dados. Este foi o tema da live realizada na sexta-feira (21) pelo Departamento de Informática (DI) da PUC-Rio, com participação do professor Marco Antonio Casanova

“Essa história de consulta por palavra-chave é bem interessante, mas tem muito mais que a gente pode fazer para melhorar a vida do usuário na hora de localizar os dados que ele precisa”, afirmou Casanova, que desenvolve pesquisas com ênfase em tecnologias que facilitem a interpretação de dados na web. “O campo da integração de dados pode ir muito além se adotarmos técnicas de machine learning mais atuais. Assim conseguimos resolver os mesmos problemas que existem há muito tempo de uma forma mais razoável”, defendeu o professor. 

Na live, Casanova explicou os desafios de integrar dados de fontes diferentes, especialmente ao lidar com grandes volumes e múltiplas origens. A questão surgiu na década de 1970, época em que os databases começaram a se popularizar, mas continua relevante até hoje, quando tratamos de aplicações de ciências de dados. 

Um estudo da empresa Crowdflower mostrou que, em um projeto de data science, gasta-se quase 80% do tempo coletando, limpando e organizando dados. Durante a apresentação, o professor identificou os quatro principais problemas a serem resolvidos no tratamento dos dados – alinhamento de esquemas, ligação de entidades, extração e fusão -, e sugeriu técnicas para resolver estes e outros conflitos.

Para quem quer se especializar em bancos de dados, Casanova dá a dica: “A interface de linguagem natural para bancos de dados existe há muito tempo, mas hoje temos tecnologias para fazer isso muito melhor do que há 5 anos. Essa é uma área em que vale a pena investir”.

A transmissão foi pelo YouTube e pelo Facebook do DI. Para revê-la, basta clicar nos links! 

Esta foi mais uma apresentação da série de seminários de pós-graduação do DI, que acontece toda sexta-feira, às 15h. Ative o lembrete do YouTube e venha participar com comentários e perguntas!

Fundamental para data science, integração de dados é tema de live

Professor Marco Antonio Casanova fala sobre as dificuldades no acesso a diferentes bancos de dados

 

Como acessar dados originados por diferentes fontes? Este é um problema antigo, que tem um grande impacto em projetos de data science. Com as novas transformações digitais, surge no mercado uma demanda por profissionais especializados em tópicos fundamentais da área de Ciência de Dados. Em live realizada nesta sexta-feira (21), às 15h, pelo Departamento de Informática (DI) da PUC-Rio, o professor Marco Antonio Casanova, vai falar sobre o tema. A transmissão será pelo YouTube e pelo Facebook do DI.

 

“O problema da integração está no cerne da Ciência de Dados”, alerta Casanova, que desenvolve pesquisa em várias áreas de banco de dados, com ênfase em tecnologias que facilitem a divulgação e interpretação de dados na Web. Na live, Casanova vai dar orientações sobre como trabalhar dados na Web de um jeito que eles possam ser lidos e interpretados pelas aplicações com mais eficiência.

 

A apresentação integra a série de seminários de pós-graduação do DI, que acontece toda sexta-feira, às 15h. Ative o lembrete do YouTube e venha participar com comentários e perguntas!

Artigo de Lifschitz e Hermann será publicado na BMC Bioinformatics

Selecionado como best paper na CMLS 2020, trabalho traz uma proposta de solução para problema relevante da bioinformática

A parceria entre pesquisadores das áreas de computação e biologia resultou num artigo premiado internacionalmente que será publicado na revista BMC Bioinformatics. Escrito pelos professores do Departamento de Informática (DI) da PUC-Rio Sérgio Lifschitz e Edward Hermann, pelo ex-aluno de doutorado Cristian Tristão e pelo pesquisador da Fiocruz Antonio Basílio de Miranda, o artigo “Relational Text-type for Biological Sequences” foi escolhido como best paper em um dos workshops da 39ª Conferência Internacional de Modelagem Conceitual (ER 2020). Lifschitz apresentou o trabalho no 1º Workshop Internacional em Modelagem Conceitual para Ciências da Vida (CMLS, na sigla em inglês) que fez parte da conferência. 

“É uma revista super top na área e vão fazer uma edição com os melhores artigos selecionados. O best paper certamente entrou e ficou isento da taxa de publicação, então foi um prêmio duplo”, comemora Lifschitz. “Ter o nosso trabalho reconhecido e valorizado pelos nossos pares é sempre um enorme motivo de alegria e realização, pois nos incentiva a prosseguir, buscando novos limites”, acrescenta Miranda. 

Segundo Lifschitz, a revista vai publicar a versão estendida do artigo contendo contribuições inéditas, inclusive os resultados práticos de um trabalho que ele já vem desenvolvendo com outros dois alunos da graduação do DI a partir do resultado alcançado na tese de doutorado de Cristian Tristão. 

O projeto consiste utilizar um tipo de dados presentes em Sistemas Gerenciadores de Bancos de Dados (SGBD) relacionais para armazenar sequências de aminoácidos que tentam representar matematicamente o DNA de uma espécie. Por serem sequências muito grandes, o processamento raramente é feito com a sequência inteira. Em geral, os biólogos guardam essas informações em arquivos-texto, porém, como o conjunto de dados é muito grande, gera um problema de representação destas very large sequences (sequências muito grandes). Como não há muitas soluções prontas para o armazenamento destas  sequências biológicas em bancos de dados, Tristão propôs em sua tese o armazenamento em banco de dados relacional, usando o tipo text, que permite armazenar a quantidade de dados das sequências biológicas sem preocupação com o tamanho.

“O Antonio (Fiocruz) trouxe o problema para a gente, foi nos dizendo quais as funções eram necessárias e nós fomos pensando como desenvolver essas funções específicas para lidar com textos nesta área particular da ciência, que é a bioinformática. O Hermann ajudou a orientar na formalização e deu muitas sugestões na defesa de tese do Cristian. Cabe ressaltar que além de armazenar, desenvolvemos um conjunto de soluções com funções que o biólogo precisa, voltada para aquele domínio de aplicação. Isso acabou se mostrando um sucesso”, conta Lifschitz. 

A pesquisa segue com outros dois alunos Sergio Gustavo M. P. Moreira e Alexandre Wanick Vieira, sob orientação de Lifschitz. Eles trabalham na reimplementação de funções antigas, desenvolvimento de novas funções e uma interface tipo web para os usuários. “Esses alunos estão desenvolvendo a ferramenta e colocando o código público no GitHub, para quem quiser baixar e usar”, afirma o orientador.

Continue reading

Endler mostra como Internet das Coisas pode ajudar no combate à Covid-19

Em live, Diretor do DI apresentou kit de sensores e mobile hub para monitoramento de pacientes 

A Internet das Coisas tem múltiplas aplicações e uma delas pode ser a serviço da saúde. Pesquisador de IoMT (Internet of Mobile Things) Markus Endler, diretor do Departamento de Informática (DI) da PUC-Rio, mostrou na live do DI, na sexta-feira (16), projetos de software e hardware que podem ajudar no combate à Covid-19 monitorando os sinais vitais dos pacientes. “Cada vez mais temos dispositivos wearable (usáveis) muito bons, muito precisos, onde se pode medir, por exemplo, a insulina, o pulso, o oxímetro… o que é muito importante na pandemia”, disse. 

No seminário “Middleware para Internet das Coisas com Mobilidade”, transmitido pelo YouTube e pelo Facebook, Endler detalhou o que é IoT e suas aplicações. Apresentou exemplos de sistemas de IoT em larga escala e abordou a questão da mobilidade. O professor também descreveu em linhas gerais o ContextNet, o middleware desenvolvido integralmente no LAC (Laboratory of Advanced Colaboration) da PUC-Rio há oito anos. “Ele é escalável, tem um protocolo de comunicação confiável e leve, permite estar conectado com até 1000 IoT simultaneamente, e está disponível para uso em pesquisa ou de ensino também”, disse o professor, sobre as vantagens do ContextNet.

Dentre as suas áreas de aplicação, cidades inteligentes, IoT na indústria, healthcare (saúde) e monitoramento ambiental, a tecnologia pode se tornar uma ferramenta de combate ao novo coronavírus, se usada para monitorar os pacientes. Endler mostrou como funciona um componente de software para um sistema de monitoramento de pacientes com sintomas leves da Covid-19, desenvolvido no semestre passado. “Observamos que os profissionais da saúde, com tantos pacientes, têm dificuldade de perceber rapidamente a piora do estado de saúde de um paciente. E em algumas doenças infecciosas, como na Covid-19, essa piora pode ser muito rápida. Então a ideia é ter o hardware como um wearable, — que você coloca ou no dedo ou na orelha — e coleta a frequência cardíaca, a saturação de oxigênio e a temperatura. Em seguida, envia isso para o sistema de monitoramento e de alarme que vai então mandar os alarmes para os enfermeiros e médicos”, explicou o professor.  

 

LEIA TAMBÉM:

Endler: ‘No futuro, as coisas vão se interconectar automaticamente’

Capes apoia projeto de professor do DI sobre combate à Covid-19

Jogo criado por alunos do DI e do DAD brilham na cena internacional de games

 

Endler apresentou a interface mobile do sistema, que mostra inclusive um gráfico com a evolução dos sintomas ao longo do tempo. “Ainda não está implantado, mas a parte de software está praticamente toda pronta”, afirmou. Além do  , também é necessário um kit de sensores. “É ergonômico, leve, pequeno. E o envio de dados é ajustável. Tem a vantagem da economia da bateria. E esse kit seria de baixo custo, entre R$ 100 e R$ 400, muito abaixo do valor dos equipamentos que se usa em uma UTI”, apontou. 

A live com o professor Endler está disponível no nosso canal do YouTube. Se inscreva e não perca os próximos seminários.

Endler: ‘No futuro, as coisas vão se interconectar automaticamente’

Diretor do DI apresentará seminário online sobre a Internet das Coisas nesta sexta (16)

Já pensou na tranquilidade de ter uma janela que se fecha automaticamente quando começa a chover? E se todos os aparelhos da sua casa fossem interconectados e funcionassem sozinhos, a ponto de você não precisar interagir com cada um? Pois essa tecnologia tem tudo a ver com o seminário “Middleware para Internet das Coisas com Mobilidade”, do diretor do Departamento de Informática (DI) da PUC-Rio, Markus Endler, nesta sexta-feira (16). “A internet das coisas (IoT) é a ideia de que, no futuro, as coisas vão se interconectar automaticamente, adaptando-se às necessidades do usuário sem que ele tenha que configurar nada”, adianta Endler.

Embora a área de aplicação de IoT (Internet of Things) que mais avançou em popularização e produtos seja a de smart home (casa inteligente), atualmente a internet das coisas está presente em muitas áreas, como na agricultura, nas cidades inteligentes e na indústria 4.0 — já é bastante eletrônica, mas que ainda não tem comunicação entre as máquinas. É justamente aí que entra a IoT. “Na minha pesquisa, em particular, me interesso pela internet das coisas móveis. Acredito que cada vez mais vamos carregar muitos aparelhos conosco. Podemos imaginar que no futuro teremos sensores em ônibus, por exemplo”, diz.

Endler destaca como exemplo uma rede de drones que se coordena no vôo para otimizar o percorrimento de uma área e coletar dados. “Ao voar juntos, já vão coletando dados através de sensores e repassando a informação de um para o outro, de tal maneira que rapidamente você tem acesso a esses dados pela internet”, explica. “A internet das coisas é a infraestrutura necessária para coletar dados que posteriormente serão analisados. Não se pode pensar em ciência de dados sem pensar na infraestrutura para coletá-los de forma confiável. Se não há garantia da confiabilidade e consistência dos dados, eles não valem de nada. E, para isso, um software de IoT é fundamental.”

Endler ressalta que apesar de muito se falar das aplicações, o foco da pesquisa é desenvolver uma camada de middleware mais genérica e independente. Assim, a depender de onde será usada, pode ser configurada com os serviços e módulos necessários para a aplicação em questão. “Podemos compor o software de acordo com a necessidade. Isso proporciona economia de energia, porque é um software mais enxuto, não é tão grande”, diz. Segundo o pesquisador, o middleware tem funções para descobertas de objetos móveis e para estabelecer conexão com eles, além de uma opção para difundir os dados que coleta de forma organizada.

Para saber mais detalhes, não perca o seminário na sexta-feira (16), às 15h. Se inscreva no canal do DI no Youtube e ative o lembrete. Assim você recebe um aviso antes do início da live e, além de assistir, poderá tirar suas dúvidas pelo chat ao vivo!

Continue reading

Artigo curto de mestrando do DI ganha menção honrosa no SBBD 2020

Short paper de Alexandre Novello apresenta nova solução para problema de agregação na interface de linguagem natural para bancos de dados

Assistentes virtuais como o do Google, a Siri da Apple, a Alexa da Amazon ou a Cortana da Microsoft, vêm ganhando cada vez mais popularidade e estão aptos a responderem as mais diversas perguntas dos usuários. Mas para entregar os resultados eles precisam de sistemas que respondem automaticamente às perguntas feitas em linguagem natural. E é sobre esse assunto, chamado Question Answering (QA), o artigo que garantiu a Alexandre Novello, aluno de mestrado do Departamento de Informática (DI) da PUC-Rio o prêmio de Menção Honrosa no SBBD 2020 (35ª edição do Simpósio Brasileiro de Bancos de Dados).

Sob orientação do professor Marco Antonio Casanova, Novello desenvolveu um módulo chamado de GLAMORISE (GeneraL Aggregation MOdule for RelatIonal databaSEs), uma nova solução para um problema da área de Natural Language Interface to Database (NLIDB). “Nossa ideia foi criar um módulo que possa ser usado pelos sistemas existentes para responder perguntas relacionadas à agregação. Escolhemos agregação por ser um tipo de pergunta que estes sistemas geralmente não lidam bem”, explicou o pesquisador.

Essa “agregação” citada por Novello é necessária quando a pergunta exige não apenas uma uma consulta ao banco de dados para listar o resultado, mas sim uma operação de sintetização no resultado. “A solução que desenvolvemos foi feita para a língua inglesa e envolve o uso de palavras chaves e como elas aparecem na pergunta, para isso usamos uma árvore de dependência sintática e o Part-Of-Speech (POS) de cada palavra que seria a classe gramatical. Para realizar esta tarefa usamos a biblioteca spaCy e a linguagem Python”, disse.

Submetido na categoria melhor artigo curto do SBBD 2020 — que aconteceu de 28 de setembro a 2 de outubro, totalmente online — o GLAMORISE foi apresentado em um artigo de seis páginas e levou o certificado de Menção Honrosa. Para Alexandre, a premiação foi uma grata surpresa. “Eu voltei para a academia recentemente, minha vida normal é na indústria. Essa foi a primeira vez que submeti um paper e foi uma surpresa total. Recebi dezenas de mensagens por celular, dando parabéns. Eu não tinha a menor expectativa de nada, os trabalhos do SBBD são muito bons!”, exclamou. 

Novello começou a pesquisa para o GLAMORISE em abril de 2019 e adianta que a conclusão será sua dissertação de mestrado. “Também pretendemos publicar um full paper descrevendo o trabalho completo”, afirmou. Para saber mais, assista à apresentação virtual feita pelo próprio Alexandre no SBBD, que está disponível no canal do DI no YouTube.

Continue reading

‘Web-of-Data é uma outra web por trás da web’, afirma Casanova, em live

Em seminário online, professor fez um convite para a disciplina sobre Integração de Dados que vai ministrar no DI da PUC-Rio

“No início, isso tudo aqui era mato”. Essa frase recorrentemente é usada nas redes socias para falar sobre o início da internet. E foi esse “mato” o ponto de partida do professor Marco Antonio Casanova no seminário “Selected Topics on the Web-of-Data and Data Integration”, transmitido ao vivo no canal do YouTube e na página do Facebook do Departamento de Informática (DI) da PUC-Rio, na sexta-feira (25). “A história da web começou há 41 anos. Desde o instante zero, tudo na web é baseado em padrões, e isso é extremamente importante”, disse.

 Na primeira parte da palestra, Casanova falou sobre a história de Web-of-Data, dando ênfase na ideia de que se pode taguear as páginas da web com RDF (Resource Description Framework), que é apropriado para isso. “Na verdade, Web-of-Data é uma outra web por trás da web que a gente está acostumada a ver, e que descreve dados”, afirmou o professor, que também deu exemplos de keyword search para mostrar como começar a trabalhar com RDF diretamente.

Casanova também abordou a integração de dados e apontou os problemas relacionados. “O problema de integração de dados está no cerne da Ciência de Dados”, alertou.  Ele falou sobre questões como schema alignment, criação de ontologia de domínio, extração de dados e datafusion, entre outras. Antes de encerrar e abrir para perguntas, o professor fez um convite para todos participarem de seu curso de Integração de Dados no próximo semestre, e brincou: “A boa notícia é que vocês não vão ter que me escutar, quem dá as aulas são os próprios alunos, eu simplesmente tento organizar um pouco o material”.

Essa foi a terceira edição da série de lives do DI. Na estreia, o professor Hélio Lopes falou sobre Ciência de Dados, ressaltando a importância de se falar a língua dos dados atualmente. No dia 18, Edward Hermann apresentou sua pesquisa, que impressionou o mundo da computação, e contou que foi preciso aliar as ciências exatas e humanas para resolver um problema que estava há mais de 40 anos em aberto na computação. Não perca as próximas lives: se inscreva no canal do DI e ative o lembrete!

 

Data Science: ‘É importante saber falar a língua dos dados’, diz Hélio Lopes, em live

Cientista de dados deve ser criativo, ter mente aberta e analítica, interesse humano e saber negociar

Para atingir a transformação digital, é importantíssimo uma mudança cultural. Foi com esse conceito que o professor Hélio Lopes, do Departamento de Informática (DI) da PUC-Rio, começou sua fala no seminário “Pesquisa em Ciência de Dados: A Escalada para a Valorização dos Dados”, transmitido ao vivo pelo Youtube na última sexta-feira (11). Com mais de 100 participantes conectados simultaneamente, o evento marcou a estreia da série de lives do DI como um sucesso e segue disponível online.

“As empresas estão todas interessadas em transformação digital. Ainda mais agora, neste período de pandemia, em que se verificou que automatizar processos, melhorar a comunicação de uma forma digital entre as pessoas com o uso de tecnologia é algo muito importante”, disse Hélio, ao apresentar o tema. Ele ressaltou “falar a língua dos dados” é hoje, para muitas profissões e setores da indústria, uma habilidade tão necessária quanto foi o domínio da língua inglesa no século passado.

Com o objetivo de transformar dados em informação e esta, por sua vez, em conhecimento, a Data Science — que foi traduzida para o português como “ciência de dados”, mas segundo o professor melhor seria ser chamada de “ciência por dados” — tem múltiplas aplicações. Com diferentes fundamentos e técnicas, abarca desde aplicativos como Waze até um sistema de busca semântica em cenas de novela através de reconhecimento facial. 

“Você cria uma ontologia, um sistema de acesso à base de dados, de forma eficiente. Mas para isso tem que ter um algoritmo que consiga realmente reconstruir sem erro dentro desse contexto o reconhecimento de cada artista em cada cena de todas as novelas do legado que existe na Globo, por exemplo”, disse Hélio. Esse projeto, “Globo Face Stream: A System for Video Meta-data Generation in an Entertainment Industry Setting”, foi desenvolvido pelo DI da PUC-Rio com alunos que atuam na Globo.com e recebeu o prêmio “Best Paper Award Certificate” neste ano.

Habilidades do Cientista de Dados

Lopes disse que, no Departamento de Informática da PUC, “ao formar esses novos cientistas de dados, queremos formar um líder em ciência de dados”. E elencou as habilidades necessárias para esse ideal de profissional, que precisa: 

  • Ter mente aberta
  • Ser criativo
  • Ter interesse humano
  • Ter poder analítico
  • Capacidade de fazer negócios

A combinação desses fatores em um cientista de dados atende ao maior interesse da indústria, que é melhorar seus negócios com o uso de dados para auxiliar as tomadas de decisão, segundo o professor. 

Dando sequência à série de lives do DI, que vai até dezembro, na próxima sexta (18), às 15h, o professor Edward Hermann falará sobre “Compressão de provas lógicas e a conjectura NP=PSPACE”, no YouTube do DI PUC Rio. Não perca!