Analisando propostas

Sistema para Extração Automatizada de questões de Pdfs e imagens para alimentar um Site de Questões

Publicado em 22 de Abril de 2026 dias na TI e Programação

Sobre este projeto

Aberto

A Academia Atena precisa de um sistema para converter PDFs de questões em um formato estruturado (JSON) e enviar automaticamente para o banco de dados do site.
O funcionamento deve ser simples: o administrador faz o upload de um PDF e informa metadados como disciplina, tópico, subtópico, banca e ano. A partir disso, o sistema deve processar o arquivo e aplicar essas informações a todas as questões extraídas.
O sistema deve ler o PDF (preferencialmente com PyMuPDF), extrair o texto de forma organizada, remover cabeçalhos e rodapés e identificar automaticamente cada questão e suas alternativas (A, B, C, D, E).
Também é obrigatório extrair as imagens presentes no PDF, salvá-las em uma pasta organizada e associá-las corretamente às questões com base na posição na página. Essas imagens devem ser inseridas no JSON dentro do enunciado.
Cada questão deve ser convertida para um JSON padronizado contendo: identificador único (qid), disciplina, tópico, enunciado (texto e imagens), alternativas, resposta correta (se houver), resolução (opcional) e demais metadados.
Após a conversão, o sistema deve permitir gerar um arquivo json ou, preferencialmente, enviar automaticamente as questões para a api do site. Todas as questões devem já entrar classificadas corretamente, por exemplo: Matemática > Média Geométrica.
O sistema também deve gerar logs com a quantidade de questões processadas, erros e imagens extraídas.
O objetivo final é ter um fluxo automatizado onde o administrador envia um PDF e as questões já aparecem prontas e organizadas dentro da plataforma, sem necessidade de cadastro manual.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média

Prazo de Entrega: Não estabelecido

Habilidades necessárias