About this project
it-programming / artificial-intelligence-1
Open
Busco um desenvolvedor Python com experiência sólida em web scraping, etl de documentos legais e rag (retrieval-augmented generation) para criar um sistema em produção, robusto e escalável, que será integrado ao meu custom gpt (via action/api).
O objetivo é montar a base mais completa e confiável de normas tributárias e contábeis do Paraguai, atualizada automaticamente e pronta para ser usada pelo meu GPT, de forma que ele responda perguntas sempre com base em fontes oficiais (lei, decreto, resolução), citando:
Número/ano da norma,
Artigo/inciso,
Data de publicação,
Link oficial.
Esse GPT será utilizado por clientes, pelo meu time de contabilidade e por mim, funcionando como um consultor tributário digital.
Escopo do Projeto
Coleta (crawler com lista branca):
Acessar e baixar automaticamente leis, decretos, resoluções e manuais de fontes oficiais.
Escopo inicial inclui 2 grandes portais (dnit e bacn) + 5 a 10 sites adicionais menores (aduanas, bcp, ips, gaceta etc.).
Recoleta inteligente: baixar apenas se houver alterações (ETag/hash).
Parsing/etl:
html → texto limpo (sem menus/rodapés).
pdf texto → extração direta; pdf escaneado → ocr seletivo.
Tabelas → csv/json estruturados.
Adicionar metadados: órgão, tipo, número, título, datas, URL, idioma, hash.
Normalização e chunking:
Divisão por artigos/seções.
Hierarquia preservada (Capítulo/Artigo/Inciso).
Relacionamentos: altera, revoga, regulamenta.
Deduplicação e versionamento automático.
Indexação e busca vetorial:
Banco: Postgres + pgvector (ou similar).
Embeddings por chunk.
Busca híbrida (semântica + BM25) com rerank.
API de produção (FastAPI):
Endpoint /ask: recebe pergunta, retorna resposta resumida + trechos + citações oficiais + status de vigência.
Endpoints de monitoramento: /health, /stats, /docs (OpenAPI).
Segurança: token de autenticação, CORS restrito, rate limiting.
Observabilidade: logs estruturados, métricas, auditoria.
Jobs e alertas:
Agendamentos diários/semanal para coleta e atualização da base.
Relatório automático enviado por e-mail com resumo das normas novas/alteradas/revogadas (contagem, títulos, links).
Deploy em produção:
Infraestrutura em Hetzner (servidor no meu nome).
Deploy com Docker Compose.
Backups diários do banco e dos documentos.
Logs persistentes e política de rollback.
Requisitos do Desenvolvedor
Experiência comprovada em scraping (estático e dinâmico).
Extração de texto/tabulação de PDFs legais.
Construção de pipelines ETL escaláveis.
Criação de APIs robustas com FastAPI (ou similar).
Conhecimento em bancos vetoriais (pgvector, Weaviate, Pinecone).
Boas práticas de segurança, logging e deploy em produção.
Entregáveis
Código completo do crawler/ETL.
Banco de dados configurado (Postgres + vetorial).
API documentada (OpenAPI).
Jobs automáticos de atualização e alertas por e-mail.
Docker Compose pronto para deploy em Hetzner.
README operacional (instalação, variáveis, backup/restore, rotação de chaves).
Exemplo real de PDF processado (antes/depois, incluindo tabela extraída).
Condições de Pagamento (Atenção)
Não haverá liberação de pagamento parcial.
O pagamento será liberado apenas no final, quando o sistema estiver funcionando conforme descrito.
Se o sistema não funcionar, o pagamento não será liberado.
Não vamos abrir disputas: o desenvolvedor deve conversar comigo, entender bem o projeto e entregar de acordo.
Se você não tem segurança para entregar um sistema pronto e em produção, por favor, não se candidate.
Resumo final:
Preciso de um sistema completo em produção, não mvp, que busque, limpe, organize e versione normas legais de fontes oficiais, indexe em banco vetorial e exponha via api para meu gpt. O sistema deve ser robusto, auditável, com logs, alertas automáticos e pronto para expansão.
Envie sua proposta com:
Exemplo prático de documento oficial processado (antes/depois).
Stack sugerida.
Prazo total estimado.
Valor fechado para entrega completa.
Category IT & Programming
Subcategory Artificial Intelligence
Project size Large
Delivery term: Not specified
Skills needed