Procuro um freelancer experiente em web scraping para um projeto pontual de extração de dados. O objetivo principal é coletar informações detalhadas de uma lista de 15.000 NIFs (Números de Identificação Fiscal) a partir de um site específico e consolidá-las em um ficheiro Excel organizado. O projeto exige a superação de proteções anti-bot e a implementação de técnicas avançadas de raspagem de dados.
O que será fornecido:
- Um ficheiro Excel contendo a lista de 15.000 NIFs.
- A estrutura de URLs diretas para as fichas das empresas no site alvo.
Dados a extrair por cada NIF:
a) Nome da Empresa
b) Morada
c) Código Postal
d) Local
e) CAE (Classificação Portuguesa de Atividades Económicas)
f) Telefone
g) E-mail
h) Website
Requisitos Técnicos Importantes:
- O site possui proteções avançadas contra bots básicos, o que significa que ferramentas como o Power Query padrão do Excel não serão eficazes.
- É Mandatório o uso de ferramentas ou bibliotecas que mimetizem o comportamento humano, como Selenium, Playwright, ou Python com BeautifulSoup, ou a extensão
WebScraper.io.
- É Crucial configurar delays e intervalos de segurança (mínimo de 5 segundos entre as requisições) para evitar bloqueios de IP e garantir a estabilidade da extração.
Entrega Final:
- Um ficheiro Excel (.xlsx) perfeitamente organizado e limpo com todos os dados extraídos.
- Um ficheiro ou script preparado para futuras utilizações, permitindo a repetição ou atualização da extração, se necessário.
Perfil do Freelancer:
- Experiência comprovada em projetos de web scraping que envolveram a superação de proteções anti-bot semelhantes.
- Excelente comunicação em Português.
- Capacidade de entregar o projeto dentro de um prazo curto e definido.
Prazo de Entrega: Não estabelecido