Desenvolvedor python scraping legal etl rag... - Procura-se Freelancer

Sobre este projeto

Aberto

Busco um desenvolvedor Python com experiência sólida em web scraping, etl de documentos legais e rag (retrieval-augmented generation) para criar um sistema em produção, robusto e escalável, que será integrado ao meu custom gpt (via action/api).

O objetivo é montar a base mais completa e confiável de normas tributárias e contábeis do Paraguai, atualizada automaticamente e pronta para ser usada pelo meu GPT, de forma que ele responda perguntas sempre com base em fontes oficiais (lei, decreto, resolução), citando:

Número/ano da norma,

Artigo/inciso,

Data de publicação,

Link oficial.

Esse GPT será utilizado por clientes, pelo meu time de contabilidade e por mim, funcionando como um consultor tributário digital.

Escopo do Projeto

Coleta (crawler com lista branca):

Acessar e baixar automaticamente leis, decretos, resoluções e manuais de fontes oficiais.

Escopo inicial inclui 2 grandes portais (dnit e bacn) + 5 a 10 sites adicionais menores (aduanas, bcp, ips, gaceta etc.).

Recoleta inteligente: baixar apenas se houver alterações (ETag/hash).

Parsing/etl:

html → texto limpo (sem menus/rodapés).

pdf texto → extração direta; pdf escaneado → ocr seletivo.

Tabelas → csv/json estruturados.

Adicionar metadados: órgão, tipo, número, título, datas, URL, idioma, hash.

Normalização e chunking:

Divisão por artigos/seções.

Hierarquia preservada (Capítulo/Artigo/Inciso).

Relacionamentos: altera, revoga, regulamenta.

Deduplicação e versionamento automático.

Indexação e busca vetorial:

Banco: Postgres + pgvector (ou similar).

Embeddings por chunk.

Busca híbrida (semântica + BM25) com rerank.

API de produção (FastAPI):

Endpoint /ask: recebe pergunta, retorna resposta resumida + trechos + citações oficiais + status de vigência.

Endpoints de monitoramento: /health, /stats, /docs (OpenAPI).

Segurança: token de autenticação, CORS restrito, rate limiting.

Observabilidade: logs estruturados, métricas, auditoria.

Jobs e alertas:

Agendamentos diários/semanal para coleta e atualização da base.

Relatório automático enviado por e-mail com resumo das normas novas/alteradas/revogadas (contagem, títulos, links).

Deploy em produção:

Infraestrutura em Hetzner (servidor no meu nome).

Deploy com Docker Compose.

Backups diários do banco e dos documentos.

Logs persistentes e política de rollback.

Requisitos do Desenvolvedor

Experiência comprovada em scraping (estático e dinâmico).

Extração de texto/tabulação de PDFs legais.

Construção de pipelines ETL escaláveis.

Criação de APIs robustas com FastAPI (ou similar).

Conhecimento em bancos vetoriais (pgvector, Weaviate, Pinecone).

Boas práticas de segurança, logging e deploy em produção.

Entregáveis

Código completo do crawler/ETL.

Banco de dados configurado (Postgres + vetorial).

API documentada (OpenAPI).

Jobs automáticos de atualização e alertas por e-mail.

Docker Compose pronto para deploy em Hetzner.

README operacional (instalação, variáveis, backup/restore, rotação de chaves).

Exemplo real de PDF processado (antes/depois, incluindo tabela extraída).

Condições de Pagamento (Atenção)

Não haverá liberação de pagamento parcial.

O pagamento será liberado apenas no final, quando o sistema estiver funcionando conforme descrito.

Se o sistema não funcionar, o pagamento não será liberado.

Não vamos abrir disputas: o desenvolvedor deve conversar comigo, entender bem o projeto e entregar de acordo.

Se você não tem segurança para entregar um sistema pronto e em produção, por favor, não se candidate.

Resumo final:
Preciso de um sistema completo em produção, não mvp, que busque, limpe, organize e versione normas legais de fontes oficiais, indexe em banco vetorial e exponha via api para meu gpt. O sistema deve ser robusto, auditável, com logs, alertas automáticos e pronto para expansão.

Envie sua proposta com:

Exemplo prático de documento oficial processado (antes/depois).

Stack sugerida.

Prazo total estimado.

Valor fechado para entrega completa.

Categoria TI e Programação
Subcategoria Inteligência Artificial
Tamanho do projeto Grande

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Python Web Scraping Extract Transform Load... Machine Learning Natural Language Proce... API REST API PostgresSQL Database Docker System Programming QA System Analysis Software Testing

Desenvolvedor Python (Scraping Legal + Etl + Rag) para Api integrada ao meu Gpt

Sobre este projeto

it-programming / artificial-intelligence-1

Aberto

Outro projetos publicados por GRUPO R.