Especialista em web scraping e estruturacao de... - Procura-se Freelancer

Sobre este projeto

Aberto

Estamos buscando um parceiro técnico altamente qualificado para automatizar a extração e estruturação de um banco de questões massivo para nossa plataforma de estudos de alta performance, focada exclusivamente em Vestibulares (enem, fuvest, unicamp, etc.).

O principal desafio é desenvolver scripts robustos de Web Scraping capazes de capturar dezenas de milhares de questões de fontes oficiais e públicas. É Crucial que o foco seja apenas em questões do ENEM e de vestibulares de universidades brasileiras, incluindo as mais requisitadas, sem incluir questões de concursos públicos.

Requisitos Técnicos Obrigatórios:

Estrutura de Dados: O output final deve seguir rigorosamente um Schema JSON estrito que será fornecido pelo cliente.

Taxonomia: Forneceremos uma lista detalhada de "Matérias", "Assuntos" e "Tópicos". O script deve ser capaz de classificar automaticamente as questões ou, no mínimo, permitir uma fácil associação posterior a essa taxonomia.

Geração de ID: O campo "id" de cada questão deve ser gerado dinamicamente, seguindo uma lógica de padrão específica (Ex: banca-ano-area-materia-topico-numero).

Tratamento de Imagens: As imagens presentes nos enunciados das questões devem ser devidamente baixadas, tratadas e armazenadas. O campo "imagem_url" no JSON deve apontar para o caminho correto ou um link estável para essas imagens.

Formatação: O texto do enunciado das questões deve preservar todas as formatações essenciais, incluindo fórmulas matemáticas (LaTeX, se aplicável) e a acentuação correta.

Entregáveis:

Código fonte completo dos scripts desenvolvidos, com documentação adequada para futuras atualizações e manutenções.

Banco de dados inicial contendo todas as questões extraídas e estruturadas no formato JSON conforme o schema definido.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Python JavaScript HTML CSS JSON API Modelagem de Dados Database Web Scraping

Especialista em Web Scraping e Estruturação de Banco de Questões de Enem e Vestibulares para Json

Sobre este projeto

it-programming / web-development

Aberto