Evaluating bids

Desenvolvedor Python (Scraping Legal + Etl + Rag) para Api integrada ao meu Gpt

Published on the September 14, 2025 in IT & Programming

About this project

Open

Busco um desenvolvedor Python com experiência sólida em web scraping, etl de documentos legais e rag (retrieval-augmented generation) para criar um sistema em produção, robusto e escalável, que será integrado ao meu custom gpt (via action/api).

O objetivo é montar a base mais completa e confiável de normas tributárias e contábeis do Paraguai, atualizada automaticamente e pronta para ser usada pelo meu GPT, de forma que ele responda perguntas sempre com base em fontes oficiais (lei, decreto, resolução), citando:

Número/ano da norma,

Artigo/inciso,

Data de publicação,

Link oficial.

Esse GPT será utilizado por clientes, pelo meu time de contabilidade e por mim, funcionando como um consultor tributário digital.

Escopo do Projeto

Coleta (crawler com lista branca):

Acessar e baixar automaticamente leis, decretos, resoluções e manuais de fontes oficiais.

Escopo inicial inclui 2 grandes portais (dnit e bacn) + 5 a 10 sites adicionais menores (aduanas, bcp, ips, gaceta etc.).

Recoleta inteligente: baixar apenas se houver alterações (ETag/hash).

Parsing/etl:

html → texto limpo (sem menus/rodapés).

pdf texto → extração direta; pdf escaneado → ocr seletivo.

Tabelas → csv/json estruturados.

Adicionar metadados: órgão, tipo, número, título, datas, URL, idioma, hash.

Normalização e chunking:

Divisão por artigos/seções.

Hierarquia preservada (Capítulo/Artigo/Inciso).

Relacionamentos: altera, revoga, regulamenta.

Deduplicação e versionamento automático.

Indexação e busca vetorial:

Banco: Postgres + pgvector (ou similar).

Embeddings por chunk.

Busca híbrida (semântica + BM25) com rerank.

API de produção (FastAPI):

Endpoint /ask: recebe pergunta, retorna resposta resumida + trechos + citações oficiais + status de vigência.

Endpoints de monitoramento: /health, /stats, /docs (OpenAPI).

Segurança: token de autenticação, CORS restrito, rate limiting.

Observabilidade: logs estruturados, métricas, auditoria.

Jobs e alertas:

Agendamentos diários/semanal para coleta e atualização da base.

Relatório automático enviado por e-mail com resumo das normas novas/alteradas/revogadas (contagem, títulos, links).

Deploy em produção:

Infraestrutura em Hetzner (servidor no meu nome).

Deploy com Docker Compose.

Backups diários do banco e dos documentos.

Logs persistentes e política de rollback.

Requisitos do Desenvolvedor

Experiência comprovada em scraping (estático e dinâmico).

Extração de texto/tabulação de PDFs legais.

Construção de pipelines ETL escaláveis.

Criação de APIs robustas com FastAPI (ou similar).

Conhecimento em bancos vetoriais (pgvector, Weaviate, Pinecone).

Boas práticas de segurança, logging e deploy em produção.

Entregáveis

Código completo do crawler/ETL.

Banco de dados configurado (Postgres + vetorial).

API documentada (OpenAPI).

Jobs automáticos de atualização e alertas por e-mail.

Docker Compose pronto para deploy em Hetzner.

README operacional (instalação, variáveis, backup/restore, rotação de chaves).

Exemplo real de PDF processado (antes/depois, incluindo tabela extraída).

Condições de Pagamento (Atenção)

Não haverá liberação de pagamento parcial.

O pagamento será liberado apenas no final, quando o sistema estiver funcionando conforme descrito.

Se o sistema não funcionar, o pagamento não será liberado.

Não vamos abrir disputas: o desenvolvedor deve conversar comigo, entender bem o projeto e entregar de acordo.

Se você não tem segurança para entregar um sistema pronto e em produção, por favor, não se candidate.

Resumo final:
Preciso de um sistema completo em produção, não mvp, que busque, limpe, organize e versione normas legais de fontes oficiais, indexe em banco vetorial e exponha via api para meu gpt. O sistema deve ser robusto, auditável, com logs, alertas automáticos e pronto para expansão.

Envie sua proposta com:

Exemplo prático de documento oficial processado (antes/depois).

Stack sugerida.

Prazo total estimado.

Valor fechado para entrega completa.

Category IT & Programming
Subcategory Artificial Intelligence
Project size Large

Delivery term: Not specified

Skills needed

Other projects posted by GRUPO R.