Desenvolvimento de sistema de extracao... - Procura-se Freelancer

Sobre este projeto

Aberto

Estamos buscando um desenvolvedor ou equipe para criar um sistema robusto de extração automatizada de questões. O objetivo principal é automatizar a gestão de conteúdo para o banco de dados do nosso site de questões, eliminando a necessidade de cadastro manual. O sistema deve ser capaz de processar arquivos pdf (tanto nativos quanto escaneados) e imagens (jpg, png), extraindo informações cruciais e convertendo-as em um formato json estruturado.

Funcionalidades Essenciais:

1. Envio de Arquivos: O sistema deve permitir o upload de arquivos através de um painel administrativo intuitivo ou monitorar uma pasta específica para novos arquivos.
2. Definição de Metadados Globais: Antes do processamento, o usuário deve ser capaz de definir metadados que serão aplicados a todas as questões extraídas de um lote de arquivos. Estes incluem: disciplina, assunto, subassunto (opcional), banca (opcional), ano (opcional) e nível (opcional).
3. Extração de Conteúdo:
* Para PDFs nativos, o sistema deve realizar a extração direta de texto.
* Para PDFs escaneados e imagens, será necessário implementar tecnologia OCR (Optical Character Recognition) avançada.
* Para cada questão, o sistema deve extrair:
* Enunciado da questão.
* Alternativas de resposta (A, B, C, D, E).
* Imagens associadas à questão (se houver), salvando-as separadamente (ex: /imagens/questao_001_img_01.png) e vinculando-as corretamente à questão no JSON.
* Resposta correta.
* Resolução detalhada da questão.
4. Saída Estruturada: Cada questão extraída deve ser convertida em um objeto JSON padronizado, contendo todos os campos necessários para a integração com o banco de dados do nosso site.
5. Validação e Controle:
* Verificação da presença do enunciado.
* Confirmação da existência de alternativas.
* Garantia de um mínimo de 4 ou 5 alternativas por questão.
* Validação da integridade do formato JSON gerado.
* Detecção e prevenção de duplicidade de questões.
6. Integração e Exportação:
* Capacidade de exportar o JSON final para download.
* Funcionalidade para enviar automaticamente os dados extraídos via API para o nosso site.
7. Monitoramento e Logs: O sistema deve registrar logs detalhados, incluindo:
* Lista de arquivos processados.
* Número de questões extraídas por arquivo/lote.
* Registro de quaisquer erros encontrados durante o processamento.
8. Painel Administrativo: Uma interface de usuário simples e eficaz para:
* Realizar o upload de arquivos.
* Definir e gerenciar metadados.
* Iniciar o processo de extração com um botão “processar”.
* Visualizar as questões extraídas antes da importação final.
* Permitir edição manual de questões para correções.
* Exibir o status de cada arquivo/questão (processado, erro, revisão).

O objetivo final é ter um sistema que, ao receber um arquivo, seja capaz de ler, extrair, separar, organizar, validar e importar as questões no site de forma totalmente automatizada, com mínima intervenção manual.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média

Duração do projeto Não estabelecido

Habilidades necessárias

Python PHP MySQL HTML CSS JavaScript API REST API Content Management System Software Testing Machine Learning Data Mining

Desenvolvimento de Sistema de Extração Automatizada de Questões para Plataforma Online

Sobre este projeto

it-programming / web-development

Aberto

Outro projetos publicados por A. A.