Desenvolvimento de web scraper robusto para... - Procura-se Freelancer

Sobre este projeto

Aberto

Tenho um site público que precisa ser totalmente raspado (crawled) de ponta a ponta. O site é aberto (sem necessidade de login), mas o conteúdo está dividido em várias páginas, então seu script precisa detectar e seguir a paginação automaticamente.

Eis exatamente o que espero:

• Um script Python limpo e bem comentado (requests/BeautifulSoup, Scrapy ou Selenium — à sua escolha) que visite todas as páginas, capture os campos necessários e os escreva em um arquivo CSV bem estruturado.

• O arquivo CSV final contendo todas as linhas extraídas do site.

• Um breve arquivo readme explicando como executar o script e alterar a url de destino ou o caminho de saída, se necessário.

A qualidade do código é importante para mim: nada de caminhos absolutos fixos, nomes de variáveis claros e tratamento de erros adequado para que a execução não seja interrompida caso uma única página apresente problemas. Todo o trabalho deve ser concluído em um ou dois dias de dedicação; a remuneração total é de US$ 40. Se tudo correr bem, terei miniprojetos de extração de dados semelhantes para compartilhar em breve.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Python HTML CSS JavaScript Selenium Data Mining Extract Transform Load... Web Scraping Qa Automation

Extração de dados da web em Python para Csv

Sobre este projeto

it-programming / web-development

Aberto