Realizado

Desenvolvimento de Backend para Monitoramento Inteligente de Sites Governamentais e Análise de Docs

Publicado em 09 de Janeiro de 2026 dias na TI e Programação

Sobre este projeto

Aberto

Estamos buscando um desenvolvedor backend experiente para criar um sistema robusto e flexível de monitoramento de sites de órgãos públicos. O objetivo principal é identificar e registrar ocorrências de palavras-chave específicas dentro de documentos publicados, com foco especial em arquivos PDF.

Objetivos do Sistema:

*  Acesso automatizado a diversos sites de órgãos públicos.
*  Identificação e download de novos documentos publicados.
*  Leitura e extração de conteúdo interno dos documentos.
*  Localização precisa de palavras-chave pré-definidas.
*  Registro detalhado de cada ocorrência (data, fonte, trecho e palavra-chave encontrada).

Desafios e Requisitos Técnicos:

*  Flexibilidade e Modularidade: Os sites dos órgãos públicos não seguem um padrão técnico. O sistema deve ser capaz de lidar com estruturas HTML variadas, diferentes formas de listar documentos, Urls dinâmicas, e publicações em múltiplos formatos (pdf, html, etc.), Além de paginação e filtros próprios de cada site. A arquitetura deve permitir a implementação de estratégias de raspagem (scraping) específicas por fonte.
*  Superando Proteções: Alguns sites podem apresentar CAPTCHAs, bloqueios por excesso de requisições, proteções anti-bot e conteúdo carregado via JavaScript. O backend deve ser capaz de detectar captchas, registrar falhas de acesso e implementar fallbacks técnicos (como o uso de headless browsers) de forma ética e legal, sem burlar sistemas de segurança de maneira ilegal.
*  Análise de Conteúdo de Documentos: A funcionalidade crítica é a busca de palavras-chave DENTRO do conteúdo dos documentos, e não apenas nas páginas web. Isso exige a capacidade de baixar os arquivos, extrair o texto interno (principalmente de PDFs), normalizar o texto (tratamento de acentos, maiúsculas/minúsculas, etc.) E realizar buscas com alta precisão para evitar falsos positivos.
*  Gerenciamento de Palavras-chave: O sistema deve oferecer uma interface para cadastrar e gerenciar múltiplas palavras-chave, associando os resultados de busca ao usuário correto e registrando o trecho relevante, a data e a fonte do documento.

Buscamos um profissional com forte conhecimento em desenvolvimento backend, web scraping avançado e processamento de documentos, capaz de construir uma solução escalável e de alta performance para este projeto desafiador.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado

Prazo de Entrega: Não estabelecido

Habilidades necessárias