Sobre este projeto
it-programming / web-development
Aberto
Estamos buscando um desenvolvedor para criar uma ferramenta em Python robusta e eficiente para realizar web scraping de jurisprudência em sites de tribunais brasileiros, especificamente o Superior Tribunal de Justiça (STJ) e o Tribunal de Justiça de Sergipe (TJSE). O objetivo principal é automatizar a coleta de dados jurídicos para análise e pesquisa.
Funcionalidades Essenciais:
1. Acesso e Navegação: A ferramenta deve ser capaz de acessar e navegar pelos portais de jurisprudência do stj e tjse.
2. Pesquisa Parametrizada: Deverá permitir a realização de pesquisas utilizando os seguintes critérios:
* Período específico.
* Palavra-chave.
* Classe processual.
3. Extração de Dados Detalhados: Para cada resultado de pesquisa, a aplicação deve capturar e estruturar as seguintes informações:
* Número do processo.
* Nome do relator.
* ÓRgão julgador.
* Datas relevantes (julgamento, publicação, etc.).
* Ementa completa.
* Inteiro teor do acórdão (quando disponível no site).
* Citações internas (se aplicável).
* Links originais para o documento no tribunal.
4. Estrutura de Dados Normalizada: Os dados extraídos devem ser apresentados em uma estrutura de dados normalizada para facilitar o consumo e a análise.
5. Exportação: Os resultados devem ser exportados nos formatos json ou ndjson.
6. Busca Completa e Incremental: A ferramenta deve suportar tanto buscas completas (varredura total) quanto buscas incrementais (coleta de novos dados desde a última execução).
Requisitos Técnicos:
* Interface de Linha de Comando (CLI): A aplicação deve ser executável via CLI, permitindo a parametrização das buscas.
* Dockerização: A ferramenta deve ser empacotada em um contêiner Docker para facilitar a implantação e execução em diferentes ambientes.
* Geração de Logs: Implementação de um sistema de log detalhado para monitorar a execução, identificar erros e acompanhar o progresso.
* Resiliência: A ferramenta deve ser resiliente a falhas de rede, problemas de paginação e outras inconsistências comuns em web scraping, com mecanismos de retry e tratamento de exceções.
Entregáveis:
* Código-fonte completo e organizado, com comentários claros.
* Testes básicos para as principais funcionalidades de extração e processamento.
* Documentação de uso detalhada, incluindo instruções de instalação, configuração e execução.
* Arquivos de exemplo com dados já coletados para demonstração.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado
Prazo de Entrega: Não estabelecido
Habilidades necessárias