#paperoftheday
Title: A Survey on Data-driven Performance Tuning for Big Data Analytics Platforms
Venue: Big Data Research, vol. 25 (2021)
Authors: Rogério Luís de C.Costa, José Moreira, Paulo Pintor, Veronica dos Santos, Sérgio Lifschitz
Abstract: Many research works deal with big data platforms looking forward to data science and analytics. These are complex and usually distributed environments, composed of several systems and tools. As expected, there is a need for a closer look at performance issues.
In this work, we review performance tuning strategies in the big data environment. We focus on data-driven tuning techniques, discussing the use of database inspired approaches. Concerning big data and NoSQL stores, performance tuning issues are quite different from the so-called conventional systems. Many existing solutions are mostly ad-hoc activities that do not fit for multiple situations. But there are some categories of data-driven solutions that can be taken as guidelines and incorporated into general-purpose auto-tuning modules for big data systems.
We examine typical performance tuning actions, discussing available solutions to support some of the tuning process’s primary activities. We also discuss recent implementations of data-driven performance tuning solutions for big data platforms. We propose an initial classification based on the domain state-of-the-art and present selected tuning actions for large-scale data processing systems. Finally, we organized existing works towards self-tuning big data systems based on this classification and presented general and system-specific tuning recommendations. We found that most of the literature pieces evaluate the use of tuning actions at the physical design perspective, and there is a lack of self-tuning machine-learning-based solutions for big data systems.
More in: https://doi.org/10.1016/j.bdr.2021.100206
O Laboratório de Bioinformática e Banco de Dados (BioBD) é um laboratório do DI da PUC-Rio com foco em engenharia de dados aplicada à biologia computacional e outras aplicações. Seu principal objetivo em relação à bioinformática é desenvolver ferramentas de pesquisa e computação para apoiar pesquisadores engajados no Genoma e projetos similares.
Em estreita cooperação com pesquisadores e laboratórios de pesquisa da FIOCRUZ, INCA, UFRJ e UNB, o BioBD investiga principalmente aspectos relativos à gestão, consistência e acesso eficiente a dados na área de biologia molecular e bases de dados científicas. Além disso, a pesquisa de BioBD envolve questões centrais de pesquisa de banco de dados, particularmente sistemas de banco de dados autônomos, autogerenciados e autoajustáveis.
As pesquisas realizadas pelos integrantes do Laboratório BioBD – colaboradores, professores, pesquisadores, posdocs, alunos de doutorado, mestrado e graduação, envolvem as seguintes áreas: (1) sistemas de bancos de dados aplicados à bioinformática (2) sintonia fina automática, bancos de dados autogerenciados e sistemas de recomendação e (3) sistemas Big Data, redes sociais e ciências de dados aplicadas.
Assim como outros laboratórios do DI da PUC-Rio, o BioBD proporciona aos alunos do Departamento a possibilidade de atuarem como colaboradores e ter contato com a diversas teorias diretamente aplicadas à prática, buscando soluções para resolver problemas reais de diversas empresas através de projetos específicos desenvolvidos pelo laboratório.
Defesa de Dissertação de Mestrado do aluno Gustavo Martins Campos Coelho
Título da dissertação: Information Extraction from Legal Opinions in Brazilian Portuguese
Resumo: A Extração de Informação é uma tarefa importante no domínio jurídico. Embora a presença de dados estruturados seja escassa, dados não estruturados na forma de documentos jurídicos, como sentenças, estão amplamente disponíveis. Se processados adequadamente, tais documentos podem fornecer informações valiosas sobre processos judiciais anteriores, permitindo uma melhor avaliação por profissionais do direito e apoiando aplicativos baseados em dados. Este estudo aborda a Extração de Informação no domínio jurídico, extraindo valor de sentenças relacionadas a reclamações de consumidores. Mais especificamente, a extração de cláusulas categóricas é abordada através de classificação, onde seis modelos baseados em diferentes estruturas são analisados. Complementarmente, a extração de valores monetários relacionados a indenizações por danos morais é abordada por um modelo de Reconhecimento de Entidade Nomeada. Para avaliação, um conjunto de dados foi criado, contendo 964 sentenças anotados manualmente (escritas em português) emitidas por juízes de primeira instância. Os resultados mostram uma média de aproximadamente 97% de acurácia na extração de cláusulas categóricas, e 98,9% na aplicação de NER para a extração de indenizações por danos morais.
Orientador: Prof. Dr. Marco Antonio Casanova
Banca:
Prof. Dr. Luiz André Portes Paes Leme
Prof. Dr. Melissa Lemos Cavaliére
Prof. Dr. Antonio Luz Furtado
Acompanhe-nos pelo link: https://puc-rio.zoom.us/j/93760975741?pwd=YXVNcUQzTTlNa2ZlOVhyd1BhLzkwdz09
Conheça os Professores do Quadro Principal do DI.
Grande parte do reconhecimento acadêmico do Departamento de Informática (DI) da PUC-Rio é devido aos professores do seu quadro principal, que atuam com excelência à frente do ensino e pesquisa, coordenando e atuando em laboratórios temáticos e orientando as pesquisas de mestrado e doutorado dos alunos. Eles também são responsáveis por coordenar os projetos de pesquisa do DI junto a órgãos de fomento e a empresas nacionais e internacionais, assim como pela criação e oferta de cursos de extensão e especialização lato sensu do DI.
Hoje, temos o prazer de apresentar o Professor Sérgio Lifschitz, que atua nas áreas de pesquisa de bancos de dados e ciência de dados. Neste contexto, suas pesquisas atualmente possuem ênfase em computação autônoma e sistemas contemplando auto-sintonia e autogerenciamento e ferramentas e sistemas de gerência de dados para aplicações em bioinformática. Atualmente ele coordena o laboratório BioBD.
Mais informações podem ser encontradas na página profissional do professor: http://www.inf.puc-rio.br/~sergio/
Conheça também o laboratório coordenado pelo professor: https://biobd.inf.puc-rio.br/
#professores #academia #bancodedados #bioinformática #tecnologia #dipucrio
Autor: Gustavo Martins Campos Coelho
Orientador: Marco Antonio Casanova
Data e Hora: 22/07/2022 às 10:00
O professor da Philip Wadler (Edinburgh University), visitará o departamento de Informática da PUC-Rio na próxima semana e ficará até a primeira semana de agosto.
Ele também irá oferecer um mini-curso no LEAN Interactive Theorem Prover. LEAN é baseado em teoria de tipos dependentes e foi desenvolvido pelo Leonardo Moura, ex-aluno de graduação, mestrado e doutorado do DI e atual principal investigator na Microsoft Research. As aulas acontecerão nos dias 15, 22 e 29 de julho e 4 de agosto (ou dia 2 de agosto, ainda a confirmar), das 14 às 16, na sala 511 RDC, dentro do departamento, e o tempo será dividido entre 1 hora de exposição e 1 hora de experimentação prática.
Conheça um pouco sobre o professor:
Philip Wadler likes to introduce theory into practice and practice into theory. An example of theory into practice: GJ, the basis for Java with generics, derives from quantifiers in second-order logic. An example of practice into theory: Featherweight Java specifies the core of Java in less than one page of rules. He is a principal designer of the Haskell programming language, contributing to its two main innovations, type classes and monads. The YouTube video of his Strange Loop talk “Propositions as Types” has over 35,000 views.
Wadler is Professor of Theoretical Computer Science at the University of Edinburgh. He is an ACM Fellow and a Fellow of the Royal Society of Edinburgh, past chair of ACM SIGPLAN, past holder of a Royal Society-Wolfson Research Merit Fellowship, winner of the SIGPLAN Distinguished Service Award, and a winner of the POPL Most Influential Paper Award. Previously, he worked or studied at Stanford, Xerox Parc, CMU, Oxford, Chalmers, Glasgow, Bell Labs, and Avaya Labs, and visited as a guest professor in Copenhagen, Sydney, and Paris. He has an h-index of 60, with more than 20,000 citations to his work according to Google Scholar. He contributed to the designs of Haskell, Java, and XQuery, and is a co-author of Introduction to Functional Programming (Prentice Hall, 1988), XQuery from the Experts (Addison Wesley, 2004) and Generics and Collections in Java (O’Reilly, 2006). He has delivered invited talks in locations ranging from Aizu to Zurich.
Caso for participar, pedimos para que tragam o seu notebook para participar das aulas!
Para se inscrever envie um email para hermann@inf.puc-rio.br com o assunto “LEAN”.
#paperoftheday
Title: Unsupervised Method for Video Action Segmentation Through Spatio-Temporal and Positional-Encoded Embedding
Venue: ACM Multimedia Systems Conference (2022)
Authors: Guilherme de A. P. Marques, Antonio José G. Busson, Álan Lívio V. Guedes, Julio Cesar Duarte, Sérgio Colcher
Abstract: Action segmentation consists of temporally segmenting a video and labeling each segmented interval with a specific action label. In this work, we propose a novel action segmentation method that requires no prior video analysis and no annotated data. Our method involves extracting spatio-temporal features from videos using a pre-trained deep network. Data is then transformed using a positional encoder, and finally a clustering algorithm is applied, where each produced cluster presumably corresponds to a different single and distinguishable action. In experiments, we show that our method produces competitive results on the Breakfast and Inria Instructional Videos dataset benchmarks.
More in: https://doi.org/10.1145/3524273.3528187
Apresentamos hoje o TeleMídia, um Núcleo de Inovação Tecnológica (NIT) do Departamento de Informática da PUC-Rio coordenado pelo Prof. Sérgio Colcher.
As primeiras atividades do laboratório eram voltadas para pesquisas na área de redes de computadores. Atualmente, os projetos são voltados para a aplicação de técnicas de aprendizado de máquina aos domínios de TV Digital Interativa, Análise de Sentimentos em conteúdo multimídia e a compressão e codificação de imagens e vídeos. Por meio dessas pesquisas, questões sobre novos cenários de TV e de Mídia Imersiva (em particular os que exploram experiências multissensoriais e realidade virtual) estão sendo estudadas.
As atividades do TeleMídia também envolvem a formação de recursos humanos por meio dos cursos de Extensão e Especialização nas áreas de TV Digital e Redes de Computadores.
Como outros laboratórios do DI da PUC-Rio, o TeleMídia proporciona aos alunos do DI a possibilidade de atuar em instituições de grande importância, possibilitando o uso dos conhecimentos adquiridos em centros de pesquisa, empresas, órgãos governamentais, entre outros.
Conheça mais sobre o TeleMídia: http://www.telemidia.puc-rio.br/