Matemática Aplicada
09 Janeiro 2017

Professores da EMAp desenvolvem algoritmo para classificar documentos diplomáticos automaticamente

O estudo buscou identificar se havia um padrão para a classificação de documentos como “secreto” ou “confidencial” a partir de técnicas de machine learning e processamento de linguagem natural.

Os professores da Escola de Matemática Aplicada da FGV (EMAp), Renato Rocha Flávio Coelho, em parceria com o professor de história da Columbia University, Matthew Connelly, desenvolveram um estudo que permite a criação de algoritmos capazes de classificar automaticamente documentos diplomáticos do departamento de defesa dos EUA.

O estudo buscou identificar se havia um padrão para a classificação de documentos como “secreto” ou “confidencial” a partir de técnicas de machine learning e processamento de linguagem natural. Em outras palavras, o algoritmo foi treinado pela equipe de pesquisa para identificar padrões de comunicação, de modo a automatizar a classificação de documentos.

“Através de técnicas supervisionadas de machine learning e processamento de linguagem natural realizado nos textos dos documentos diplomáticos, obtivemos performance de mais de 90% de acertos na maioria dos casos, e detectamos falhas graves no processo de classificação realizado por seres humanos”, destacou o professor Renato Rocha.

A pesquisa se insere na linha de big data analytics e aprendizado de máquinas da EMAp e está ligada à Ciência Política e à transparência de informações da Universidade de Columbia. O tema em questão ganhou destaque durante a corrida presidencial norte-americana, com as investigações do FBI sobre a conduta da candidata Hillary Clinton à época em que ocupava o cargo de Secretária de Estado.

Eventos