Desde o início de junho de 2022, a maioria dos quase 200 mil pedidos de informação que estão no portal Achados e Pedidos, da Transparência Brasil e da Abraji, são qualificados por meio de Inteligência Artificial (IA). Um programa que analisa a estrutura do texto das solicitações e das respostas classificou automaticamente os pedidos como “Atendido”, “Parcialmente atendido” ou “Não atendido”.
Vinícius Araújo, do Laboratório de Mineração de Dados da UFCG, desenvolveu o código especialmente para o Achados e Pedidos com o BERT, que analisa textos transformados em vetores (lista de valores numéricos) para classificá-los.
Antes de aplicar o programa no site, foi preciso treiná-lo, ou seja, fornecer uma amostra já classificada dos dados a serem analisados. O cientista de dados do Achados e Pedidos, Raul Durlo, organizou um recorte de 10 mil pedidos que a Transparência Brasil havia classificado manualmente em 2018 e outra porção de pedidos não classificados para o treinamento.
O modelo alcançou uma proporção alta de acurácia, ou seja, precisão na classificação dos pedidos: 84,6%. Essa porcentagem varia nas diferentes categorias: para os “Atendidos”, chegou a 82%; para os “Não atendidos”, 90%; para os “Parcialmente atendidos”, por sua vez, a acurácia ficou em 65%.
A tecnologia é aplicada aos pedidos que a Transparência Brasil insere de forma massiva, a partir de bases de dados públicas de pedidos e respostas como a do governo federal. Nos pedidos inseridos pelos usuários do Achados e Pedidos, são eles próprios quem apontam a classificação.
Caso encontre uma classificação que julgue estar incorreta (um pedido não atendido classificado como atendido, por exemplo), qualquer usuário do Achados e Pedidos pode alertar a equipe do portal. Basta clicar no botão “Solicitar revisão”, que aparece na lateral direita da página de cada pedido.
O uso de IA para classificar o atendimento a solicitações potencializa uma das funções do Achados e Pedidos: oferecer uma avaliação qualitativa independente da implementação da Lei de Acesso à Informação (LAI) no país. Com a classificação da base – impossível de ser feita manualmente, diante de seu tamanho -, é possível estimar mais concretamente quanto dos pedidos recebidos por cada Poder e órgão no país é atendido satisfatoriamente, e não apenas respondido. Essas estatísticas serão exibidas em breve na página Dados do site.
Em termos técnicos
O modelo usado para a classificação foi o de processamento de linguagem natural (NLP, na sigla em inglês) com embeddings. A transformação dos textos em vetores foi feita a partir de um modelo treinado em Português brasileiro, assim como o modelo de arquitetura BERT usado para a classificação. O código usado para a modelagem está disponível no GitHub.