Completed

Robô para extração de dados em site

Published on the September 27, 2016 in IT & Programming

About this project

Open

Necessito de um robô para a extração de dados de um site.

O site tem uma proteção para evitar este tipo de operação. Se vierem muitas requisições de um mesmo IP, o site corta o acesso.

O robô deverá simular requisições de vários IP's para que o site não detecte que se trata da mesma origem. Pode acessar/simular um proxy e acessar o site a partir deste proxy (uma ideia), ou a cada instância acessar com um novo IP gerado automaticamente.

Deverá ter várias instâncias (podem ser configuráveis) rodando simultaneamente, fazendo requisições e recuperando os dados. Estas instâncias devem ser  finalizadas a cada X segundos ou a cada X requisições e criada uma nova no lugar, sempre com um novo IP.

O volume de dados a serem extraídos é grande. Precisa ser um robô com  uma performance refinada. Dentro das características informadas acima, deve realizar a extração dos dados de no mínimo 30 páginas por segundo, podendo ser configurável este número, variando de acordo com o número de instâncias, também configurável.
Este é o principal ponto deste projeto.

Não existe  captcha no site.

Os dados capturados em cada requisição devem ser gravados em um arquivo texto, em um formato previamente informado.

Desenvolvido preferencialmente em C#, mas pode ser outra linguagem de sua preferência.

Category IT & Programming
Subcategory Web development
Is this a project or a position? Project
I currently have Not applicable
Required availability As needed
Experience in this type of projects Yes (I have managed this kind of project before)
Roles needed Developer

Delivery term: November 26, 2016