Analisando propostas

Crawling/Mirroring/Scrapping de website en Wayback Machine (archive.org)

Publicado em 19 de Setembro de 2018 dias na TI e Programação

Sobre este projeto

Aberto

Necesito descargar todo el contenido disponible de un sitio web que se encuentra archivado en Wayback Machine.
El freelancer deberá estar famliarizado con la herramientas de scripting necesarias para hacer scraping the paginas con ajax / jquery tables.
Es necesario descargar todo el contenido disponible (la ultima versión "valida" de cada pagina,  excluyendo redirects, 404, empty pages..
.), O al menos construir un listado con las URLs para ser descargadas luego.
Hay aproximadamente 88,700 paginas de de este sitio almacenadas actualmente en Wayback Machine.
Es ideal que el trabajo lo realice alguien que ya tenga experiencia haciendo un dump desde este sitio.

Posteriormente será necesario hacer scraping del contenido para luego reconstruir el sitio en wordpress (esto es otro proyecto)

Categoria TI e Programação
Subcategoria Outros
Tamanho do projeto Médio
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Integrações de API Outros (Outras APIs)

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Outro projetos publicados por W. G.