Thibaut: ‘Devemos treinar algoritmos para evitar erros humanos do passado’

Professor fala sobre representação e análise em machine learning nesta sexta (9), em seminário no canal do DI no Youtube

Na quinta rodada da série de lives do Departamento de Informática (DI) da PUC-Rio, o professor Thibaut Vidal vai apresentar, em inglês, o seminário “Interpretable Machine Learning Born-Again Tree Ensembles”. Nesta sexta-feira (9), às 15h, palestra será transmitida ao vivo pelo canal do DI no Youtube, com transmissão simultânea na página do Facebook. A pesquisa de Vidal se debruça sobre um dos maiores desafios do machine learning (aprendizado de máquina) e inteligência artificial na atualidade: a interpretabilidade e explicabilidade dos algoritmos. Confira abaixo um bate-papo com o professor sobre o assunto.

O que podemos esperar do seminário que será apresentado nesta sexta?

O seminário é sobre como simplificar a representação e análise de algoritmos de classificação. Muitos algoritmos usados para tarefas de classificação são representados como florestas aleatórias, ou seja, um conjunto de árvores de decisão, em que cada nó da árvore corresponde a uma avaliação (por exemplo “idade <= 26”) e cada um dos ramos corresponde a um resultado possível para esta avaliação. Ao coletar os resultados de todas as árvores de decisão, pode-se tomar decisões. O problema é que essa forma “coletiva” de produzir resultados em algoritmos torna muito mais difícil realizar análises e responder a perguntas simples como “por que meu resultado de classificação foi assim?” ou “o que devo alterar em meu perfil para obter uma ‘resposta mais favorável’?”. Nosso método permite transformar uma floresta aleatória em uma única árvore de decisão equivalente, desta forma é muito mais fácil rastrear as comparações que foram feitas (não é mais o resultado de uma escolha coletiva) e explicar como o algoritmo se comporta.

Qual é a importância do estudo Born-Again Tree Ensembles para a comunidade e quais as possíveis áreas de aplicação?

Esta questão está fortemente relacionada com a anterior. Eu diria que a interpretabilidade e a explicabilidade são um dos maiores desafios em machine learning (aprendizado de máquina) e artificial intelligence (inteligência artificial) atualmente. Como os algoritmos modernos são eficientes em algumas tarefas — como reconhecimento de imagem, classificação, direção autônoma —, mas os algoritmos aplicados são muito complexos e difíceis de analisar, torna-se cada vez mais necessário desenvolver ferramentas adequadas na área para analisar as causas que levaram a possíveis erros, preconceitos, etc.

Esse assunto se relaciona com o polêmico debate recente sobre o algoritmo do Twitter ser “racista”? Se sim, como?

Sim e não. A primeira coisa é que o algoritmo do Twitter não é necessariamente baseado em florestas aleatórias, que é o método específico que fomos capazes de simplificar e explicar. No entanto, o problema que o Twitter enfrentou é que houve um tratamento injusto de diferentes indivíduos, em um sentido amplo, e a validação feita internamente pela empresa não conseguiu detectar esse viés racial. Isso definitivamente reforça a necessidade de técnicas de validação e análise adequadas, bem como algoritmos de machine learning (aprendizado de máquina) interpretáveis/ explicáveis.

Para que áreas da computação o seminário é mais voltado?

Eu acredito que qualquer pessoa na ciência da computação precisa estar ciente dos desafios atuais encontrados ao projetar algoritmos justos e interpretáveis, porque esses algoritmos estão tomando a cada dia um lugar maior na sociedade, e os desafios atuais são consideráveis. Como sociedade, não fomos capazes de corrigir as disparidades e desigualdades raciais. Os algoritmos que criamos são frequentemente treinados em dados históricos e, portanto, refletem as escolhas feitas até hoje. É um desafio considerável evitar cometer novamente os mesmos erros do passado ao treinar algoritmos para tomar decisões em vez de humanos.