Estamos buscando um desenvolvedor para criar um sistema para extração, filtragem e organização de dados de processos. O objetivo é otimizar a gestão de informações sobre processos de marcas, identificando aqueles sem procurador cadastrado e enriquecendo os dados com informações adicionais obtidas via web scraping.
As funcionalidades principais do sistema incluem:
1. Filtro de Processos na Revista Nacional do inpi (xml):
o sistema deverá realizar a busca e o processamento de arquivos xml da revista nacional do inpi. Especificamente, será necessário identificar e extrair processos que não possuam um procurador cadastrado. O arquivo XML completo pode ser acessado em
http://revistas.inpi.gov.br/rpi/, na seção 'V marcas', coluna 'XML'. Cada processo no XML contém informações como número do processo, titular e outros campos relevantes.
2. Cadastro de Processos em Arquivo CSV:
Os processos identificados na etapa anterior (sem procurador) deverão ser inseridos ou atualizados em um arquivo CSV. Este arquivo deve conter as seguintes colunas: 'número do processo', 'andamento', 'data do despacho' (no formato DDMMAAAA), 'marca', 'classe' e 'titular'.
3. Web Scraping no Site do INPI:
Um segundo script ou módulo do sistema será responsável por realizar web scraping no site oficial do INPI. Utilizando os números de processo extraídos na primeira etapa, o sistema deverá acessar a página de pesquisa de processos de marcas (
https://busca.inpi.gov.br/pePI/jsp/marcas/Pesquisa_num_processo.jsp) para coletar informações adicionais. É Crucial que o sistema seja capaz de navegar e extrair dados, incluindo o e-mail do titular, que pode estar contido em documentos PDF acessíveis a partir desta página.
4. Cadastro de E-mails no Arquivo CSV:
O e-mail do titular, obtido através do web scraping e extração de PDFs na etapa 3, deverá ser inserido na coluna 'e-mail' do arquivo CSV utilizado na etapa 2. Ao final desta etapa, o arquivo CSV deve estar completamente preenchido com todas as colunas para cada processo: 'número do processo', 'andamento', 'data do despacho', 'marca', 'classe', 'titular' e 'e-mail'.
Buscamos um profissional com experiência comprovada em desenvolvimento de software, web scraping e manipulação de dados (xml, csv, pdf). A solução deve ser eficiente, precisa e capaz de lidar com a estrutura dos dados do INPI.
Prazo de Entrega: Não estabelecido