TB desenvolve algoritmo para estimar chances de conclusão de obras paralisadas

A partir de dados divulgados pelo Fundo Nacional de Desenvolvimento da Educação (FNDE), a Transparência Brasil elaborou um algoritmo para calcular a probabilidade de conclusão de obras de creches e escolas que estavam paralisadas em dezembro de 2020.  O modelo de cálculo também estima quanto recurso público será necessário para terminar cada obra.

O algoritmo mostrou que a maioria (97%) das 2.686 obras que estavam paralisadas têm menos de 50% de chances de serem concluídas até 3 anos e meio desde sua primeira paralisação. O montante estimado para terminá-las chega a R$ 47 milhões (média de R$ 734 mil por obra).

Um painel interativo permite fazer simulações com a ferramenta. Por meio do deslizador, é possível selecionar grupos de obras de acordo com seu progresso quando houve a primeira paralisação.

Os dados também estão disponíveis em um mapa:

O algoritmo identificou características de obras fortemente ligadas às que não foram concluídas após uma paralisação. A localização da escola é um dos aspectos que tem grande correlação com a não finalização da obra. De acordo com os dados, as escolas em territórios quilombolas têm maior tendência a ficarem inacabadas.

O trabalho foi publicado em parceria com a Fundação Maria Cecília Souto Vidigal, como parte da iniciativa Primeira Infância Primeiro. Em 2019, a TB já havia elaborado uma primeira versão da ferramenta.

O algoritmo

O algoritmo adota o modelo de regressão logística, selecionado após a realização de testes para definir a melhor forma de fazer a previsão de conclusão de obras. Esse modelo apresentou maior precisão (ou seja, teve mais “acertos” em relação à soma de “acertos” e “erros”, em um teste).

O modelo foi treinado e testado com uma base de dados contendo informações de obras municipais e estaduais financiadas pelo FNDE que tiveram ao menos uma paralisação em algum momento do processo. A base foi construída pela própria TB, com informações coletadas de dezembro de 2016 a dezembro de 2020.

Uma porção (80%) dessa base foi usada para o treinamento, servindo para estimar o impacto de variáveis (localização, quantidade de paralisações, custo da obra etc.) sobre o prazo de conclusão e o custo. O restante da base foi complementado com obras ainda não concluídas e usado no teste, que forneceu a quantidade de “erros” e “acertos” do modelo e, assim, a precisão. A íntegra da metodologia está disponível no relatório.