Realizado

Robô para extração de dados em site

Publicado em 27 de Setembro de 2016 dias na TI e Programação

Sobre este projeto

Aberto

Necessito de um robô para a extração de dados de um site.

O site tem uma proteção para evitar este tipo de operação. Se vierem muitas requisições de um mesmo IP, o site corta o acesso.

O robô deverá simular requisições de vários IP's para que o site não detecte que se trata da mesma origem. Pode acessar/simular um proxy e acessar o site a partir deste proxy (uma ideia), ou a cada instância acessar com um novo IP gerado automaticamente.

Deverá ter várias instâncias (podem ser configuráveis) rodando simultaneamente, fazendo requisições e recuperando os dados. Estas instâncias devem ser  finalizadas a cada X segundos ou a cada X requisições e criada uma nova no lugar, sempre com um novo IP.

O volume de dados a serem extraídos é grande. Precisa ser um robô com  uma performance refinada. Dentro das características informadas acima, deve realizar a extração dos dados de no mínimo 30 páginas por segundo, podendo ser configurável este número, variando de acordo com o número de instâncias, também configurável.
Este é o principal ponto deste projeto.

Não existe  captcha no site.

Os dados capturados em cada requisição devem ser gravados em um arquivo texto, em um formato previamente informado.

Desenvolvido preferencialmente em C#, mas pode ser outra linguagem de sua preferência.

Categoria TI e Programação
Subcategoria Programação
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Não se aplica
Disponibilidade requerida Conforme necessário
Experiência nesse tipo de projeto Sim (Eu já gerenciei esse tipo de projeto)
Funções necessárias Desenvolvedor

Prazo de Entrega: 26 de Novembro de 2016