Terminado

Robô para extração de dados em site

Publicado el 27 Septiembre, 2016 en Programación y Tecnología

Sobre este proyecto

Abierto

Necessito de um robô para a extração de dados de um site.

O site tem uma proteção para evitar este tipo de operação. Se vierem muitas requisições de um mesmo IP, o site corta o acesso.

O robô deverá simular requisições de vários IP's para que o site não detecte que se trata da mesma origem. Pode acessar/simular um proxy e acessar o site a partir deste proxy (uma ideia), ou a cada instância acessar com um novo IP gerado automaticamente.

Deverá ter várias instâncias (podem ser configuráveis) rodando simultaneamente, fazendo requisições e recuperando os dados. Estas instâncias devem ser  finalizadas a cada X segundos ou a cada X requisições e criada uma nova no lugar, sempre com um novo IP.

O volume de dados a serem extraídos é grande. Precisa ser um robô com  uma performance refinada. Dentro das características informadas acima, deve realizar a extração dos dados de no mínimo 30 páginas por segundo, podendo ser configurável este número, variando de acordo com o número de instâncias, também configurável.
Este é o principal ponto deste projeto.

Não existe  captcha no site.

Os dados capturados em cada requisição devem ser gravados em um arquivo texto, em um formato previamente informado.

Desenvolvido preferencialmente em C#, mas pode ser outra linguagem de sua preferência.

Categoría Programación y Tecnología
Subcategoría Programación Web
¿Es un proyecto o una posición? Un proyecto
Actualmente tengo No aplica
Disponibilidad requerida Según se necesite
Experiencia en este tipo de proyectos Sí (He administrado este tipo de proyectos anteriormente)
Roles necesarios Programador

Plazo de Entrega: 26 Noviembre, 2016