Estamos buscando um especialista em R para desenvolver uma Prova de Conceito (POC) focada no processamento e filtragem de dados B2B. O objetivo principal é demonstrar a viabilidade de extrair, transformar e carregar (ETL) grandes volumes de dados de diversas fontes, aplicando técnicas de filtragem avançadas para identificar e qualificar leads de prospecção B2B. O projeto envolve a criação de scripts em R para automação dessas tarefas, garantindo a qualidade e a relevância dos dados para futuras campanhas de marketing e vendas.
O freelancer será responsável por:
1. Definir e implementar o fluxo de ETL para dados B2B.
2. Desenvolver algoritmos de filtragem e segmentação de dados em R.
3. Gerar relatórios e visualizações que comprovem a eficácia do processo de prospecção.
4. Documentar o código e o processo para futuras implementações.
Experiência com manipulação de dados, análise estatística e otimização de performance em R é essencial.
Contexto:
Os dados estão distribuídos em vários arquivos CSV (fracionados). A soma total é de ~25 GB.
Os dados representam empresas (ex.: cnpj, cnae, uf, situação cadastral, porte, razão social).
O resultado final será usado por time de prospecção comercial.
🛠️ Escopo técnico (o que precisa ser feito)
1. Leitura e processamento de dados
Ler múltiplos arquivos CSV a partir de um diretório.
Processar os arquivos um a um (ou via DuckDB/Arrow) para evitar estouro de memória.
Garantir que o pipeline funcione em ambiente local (8–16 gb ram).
2. Filtros comerciais (parametrizáveis)
Aplicar filtros como:
cnae (lista configurável)
uf
situação cadastral (ex.: “ATIVA”)
Porte da empresa
Outros filtros simples baseados em colunas textuais ou categóricas
Os filtros devem ser fáceis de ajustar no código (variáveis no início do script).
3. Limpeza e padronização
Tratamento básico de dados missing
Normalização de textos (maiúsculas, remoção de acentos)
Deduplicação por CNPJ
Garantir consistência dos campos principais
4. Geração de outputs
Arquivo consolidado final com todas as empresas filtradas
Arquivo de amostra (ex.: 200 registros) para validação manual
Exportação em:
CSV
Excel (XLSX)
(Opcional) Parquet
5. Performance e controle
Uso de boas práticas de performance (
data.table, duckdb, arrow, etc.)
Liberação de memória entre etapas (rm(), gc())
Log simples do processo (arquivo .txt ou .log com:
data/hora
arquivos processados
número de registros lidos e filtrados)
📦 Entregáveis esperados
Script(s) em R prontos para execução (bem comentados).
Pipeline funcional que processe todos os arquivos da pasta definida.
Arquivos de saída:
prospects_consolidado.csv
prospects_amostra.xlsx
Documentação técnica (README ou RMarkdown) contendo:
Como instalar dependências
Como executar o pipeline
Onde ajustar filtros
Requisitos mínimos de máquina (No caso a maquina tem 16gb ram)
Sessão de handover (call gravada ou vídeo curto explicativo).
Código entregue em repositório Git (ou zip organizado).
Critérios de sucesso (aceite do POC)
O pipeline roda do início ao fim sem falhas.
Processa corretamente múltiplos arquivos somando ~25 GB.
Gera lista final utilizável pela área comercial.
Código compreensível para alguém com conhecimento intermediário em R.
Documentação suficiente para manutenção interna futura.
Prazo de Entrega: Não estabelecido