Sobre este projeto
it-programming / web-development
Aberto
Estamos buscando um parceiro técnico altamente qualificado para automatizar a extração e estruturação de um banco de questões massivo para nossa plataforma de estudos de alta performance, focada exclusivamente em Vestibulares (enem, fuvest, unicamp, etc.).
O principal desafio é desenvolver scripts robustos de Web Scraping capazes de capturar dezenas de milhares de questões de fontes oficiais e públicas. É Crucial que o foco seja apenas em questões do ENEM e de vestibulares de universidades brasileiras, incluindo as mais requisitadas, sem incluir questões de concursos públicos.
Requisitos Técnicos Obrigatórios:
Estrutura de Dados: O output final deve seguir rigorosamente um Schema JSON estrito que será fornecido pelo cliente.
Taxonomia: Forneceremos uma lista detalhada de "Matérias", "Assuntos" e "Tópicos". O script deve ser capaz de classificar automaticamente as questões ou, no mínimo, permitir uma fácil associação posterior a essa taxonomia.
Geração de ID: O campo "id" de cada questão deve ser gerado dinamicamente, seguindo uma lógica de padrão específica (Ex: banca-ano-area-materia-topico-numero).
Tratamento de Imagens: As imagens presentes nos enunciados das questões devem ser devidamente baixadas, tratadas e armazenadas. O campo "imagem_url" no JSON deve apontar para o caminho correto ou um link estável para essas imagens.
Formatação: O texto do enunciado das questões deve preservar todas as formatações essenciais, incluindo fórmulas matemáticas (LaTeX, se aplicável) e a acentuação correta.
Entregáveis:
Código fonte completo dos scripts desenvolvidos, com documentação adequada para futuras atualizações e manutenções.
Banco de dados inicial contendo todas as questões extraídas e estruturadas no formato JSON conforme o schema definido.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média
Prazo de Entrega: Não estabelecido
Habilidades necessárias