Sobre este projeto
it-programming / web-development
Aberto
Tenho um site público que precisa ser totalmente raspado (crawled) de ponta a ponta. O site é aberto (sem necessidade de login), mas o conteúdo está dividido em várias páginas, então seu script precisa detectar e seguir a paginação automaticamente.
Eis exatamente o que espero:
• Um script Python limpo e bem comentado (requests/BeautifulSoup, Scrapy ou Selenium — à sua escolha) que visite todas as páginas, capture os campos necessários e os escreva em um arquivo CSV bem estruturado.
• O arquivo CSV final contendo todas as linhas extraídas do site.
• Um breve arquivo readme explicando como executar o script e alterar a url de destino ou o caminho de saída, se necessário.
A qualidade do código é importante para mim: nada de caminhos absolutos fixos, nomes de variáveis claros e tratamento de erros adequado para que a execução não seja interrompida caso uma única página apresente problemas. Todo o trabalho deve ser concluído em um ou dois dias de dedicação; a remuneração total é de US$ 40. Se tudo correr bem, terei miniprojetos de extração de dados semelhantes para compartilhar em breve.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado
Prazo de Entrega: Não estabelecido
Habilidades necessárias