Precisamos estruturar um banco de dados de jurisprudências a partir de sites oficiais de tribunais brasileiros. O trabalho consiste em desenvolver mecanismos de raspagem de dados (scraping) ou crawlers para coletar, organizar e disponibilizar decisões de forma estruturada.
Os tribunais-alvo nesta primeira etapa são:
STJ – Superior Tribunal de Justiça
STF – Supremo Tribunal Federal
TJSP – Tribunal de Justiça de São Paulo
TJDFT – Tribunal de Justiça do Distrito Federal e Territórios
Objetivos do projeto:
Criar rotinas automáticas (scrapers/crawlers) para acessar os portais oficiais dos tribunais.
Coletar ementa, voto, relatório, dispositivo, tribunal, órgão julgador, relator, classe, assunto, número do processo, data do julgamento.
Normalizar os dados em um formato estruturado (JSON ou banco relacional).
Implementar sistema de atualização periódica (para manter o banco sempre atualizado).
Garantir tratamento de duplicatas, limpeza de HTML e consistência dos campos.
Entregar documentação clara de como rodar os scrapers e atualizar o banco.
Requisitos técnicos:
Experiência em web scraping (BeautifulSoup, Scrapy, Puppeteer, Playwright, Selenium, ou equivalentes).
Conhecimento em crawlers escaláveis (respeito a
robots.txt, delays, retry, paralelismo).
Manipulação e estruturação de dados (json, csv, sql).
Experiência com tratamento de textos em português (limpeza e normalização).
Diferencial: experiência prévia em raspagem de sites de tribunais ou sistemas jurídicos.
Entregáveis:
Scripts/crawlers prontos para rodar e coletar os dados.
Banco de dados inicial com as jurisprudências de stj, stf, tjsp e tjdft.
Procedimento/documentação para atualização periódica.
O que não queremos:
Apenas coleta manual de decisões (o foco é automação).
Dados desorganizados sem metadados estruturados.
Prazo de Entrega: Não estabelecido