Estamos buscando um desenvolvedor ou equipe para criar um sistema robusto de extração automatizada de questões. O objetivo principal é automatizar a gestão de conteúdo para o banco de dados do nosso site de questões, eliminando a necessidade de cadastro manual. O sistema deve ser capaz de processar arquivos pdf (tanto nativos quanto escaneados) e imagens (jpg, png), extraindo informações cruciais e convertendo-as em um formato json estruturado.
Funcionalidades Essenciais:
1. Envio de Arquivos: O sistema deve permitir o upload de arquivos através de um painel administrativo intuitivo ou monitorar uma pasta específica para novos arquivos.
2. Definição de Metadados Globais: Antes do processamento, o usuário deve ser capaz de definir metadados que serão aplicados a todas as questões extraídas de um lote de arquivos. Estes incluem: disciplina, assunto, subassunto (opcional), banca (opcional), ano (opcional) e nível (opcional).
3. Extração de Conteúdo:
* Para PDFs nativos, o sistema deve realizar a extração direta de texto.
* Para PDFs escaneados e imagens, será necessário implementar tecnologia OCR (Optical Character Recognition) avançada.
* Para cada questão, o sistema deve extrair:
* Enunciado da questão.
* Alternativas de resposta (A, B, C, D, E).
* Imagens associadas à questão (se houver), salvando-as separadamente (ex: /imagens/
questao_001_img_01.png) e vinculando-as corretamente à questão no JSON.
* Resposta correta.
* Resolução detalhada da questão.
4. Saída Estruturada: Cada questão extraída deve ser convertida em um objeto JSON padronizado, contendo todos os campos necessários para a integração com o banco de dados do nosso site.
5. Validação e Controle:
* Verificação da presença do enunciado.
* Confirmação da existência de alternativas.
* Garantia de um mínimo de 4 ou 5 alternativas por questão.
* Validação da integridade do formato JSON gerado.
* Detecção e prevenção de duplicidade de questões.
6. Integração e Exportação:
* Capacidade de exportar o JSON final para download.
* Funcionalidade para enviar automaticamente os dados extraídos via API para o nosso site.
7. Monitoramento e Logs: O sistema deve registrar logs detalhados, incluindo:
* Lista de arquivos processados.
* Número de questões extraídas por arquivo/lote.
* Registro de quaisquer erros encontrados durante o processamento.
8. Painel Administrativo: Uma interface de usuário simples e eficaz para:
* Realizar o upload de arquivos.
* Definir e gerenciar metadados.
* Iniciar o processo de extração com um botão “processar”.
* Visualizar as questões extraídas antes da importação final.
* Permitir edição manual de questões para correções.
* Exibir o status de cada arquivo/questão (processado, erro, revisão).
O objetivo final é ter um sistema que, ao receber um arquivo, seja capaz de ler, extrair, separar, organizar, validar e importar as questões no site de forma totalmente automatizada, com mínima intervenção manual.
Duração do projeto Não estabelecido