Sobre este projeto
it-programming / web-development
Aberto
A Academia Atena precisa de um sistema para converter PDFs de questões em um formato estruturado (JSON) e enviar automaticamente para o banco de dados do site.
O funcionamento deve ser simples: o administrador faz o upload de um PDF e informa metadados como disciplina, tópico, subtópico, banca e ano. A partir disso, o sistema deve processar o arquivo e aplicar essas informações a todas as questões extraídas.
O sistema deve ler o PDF (preferencialmente com PyMuPDF), extrair o texto de forma organizada, remover cabeçalhos e rodapés e identificar automaticamente cada questão e suas alternativas (A, B, C, D, E).
Também é obrigatório extrair as imagens presentes no PDF, salvá-las em uma pasta organizada e associá-las corretamente às questões com base na posição na página. Essas imagens devem ser inseridas no JSON dentro do enunciado.
Cada questão deve ser convertida para um JSON padronizado contendo: identificador único (qid), disciplina, tópico, enunciado (texto e imagens), alternativas, resposta correta (se houver), resolução (opcional) e demais metadados.
Após a conversão, o sistema deve permitir gerar um arquivo json ou, preferencialmente, enviar automaticamente as questões para a api do site. Todas as questões devem já entrar classificadas corretamente, por exemplo: Matemática > Média Geométrica.
O sistema também deve gerar logs com a quantidade de questões processadas, erros e imagens extraídas.
O objetivo final é ter um fluxo automatizado onde o administrador envia um PDF e as questões já aparecem prontas e organizadas dentro da plataforma, sem necessidade de cadastro manual.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média
Prazo de Entrega: Não estabelecido
Habilidades necessárias