Estamos em busca de um(a) desenvolvedor(a) Python sênior e experiente para construir um sistema automatizado de captura e processamento de informações públicas. Este projeto é de uso interno para um escritório de advocacia tributária e será implementado em fases, começando com um MVP (Produto Mínimo Viável).
O escopo inicial do projeto inclui:
* Captura periódica de editais no site da Imprensa Nacional (
in.gov.br), com a capacidade de filtrar por órgão emissor.
* Extração de dados estruturados, como CNPJs e outras informações relevantes, a partir de documentos PDF. Será necessário implementar funcionalidades de OCR (Reconhecimento Óptico de Caracteres) quando os PDFs não forem textuais.
* Enriquecimento dos dados capturados através da integração com APIs públicas, como a BrasilAPI, e bases de dados abertas, incluindo as da Receita Federal e da Procuradoria-Geral da Fazenda Nacional (PGFN).
* Capacidade de processar localmente grandes volumes de arquivos, considerando que a base da pgfn pode ter dezenas de gb descompactados.
* Desenvolvimento de um sistema de scoring e classificação para os leads gerados.
* Entrega inicial dos resultados em planilhas Google Sheets, com planos de evolução para integração com CRM e Slack.
* Configuração de agendamento automático para execuções periódicas do sistema de captura e processamento.
Procuramos um profissional com:
* Experiência sênior em Python (5+ anos).
* Experiência comprovada em web scraping, preferencialmente com sites governamentais brasileiros.
* Domínio no processamento de PDFs, incluindo o uso de bibliotecas como pdfplumber e ferramentas de OCR como Tesseract.
* Experiência com o processamento de grandes volumes de dados tabulares, utilizando ferramentas como DuckDB, Polars ou bancos de dados indexados como PostgreSQL.
* Forte adesão a boas práticas de engenharia de software, incluindo testes, documentação e versionamento de código.
* Capacidade de entregar o projeto por marcos definidos, mantendo uma comunicação clara e eficiente.
Prazo de Entrega: Não estabelecido