Analisando propostas

Desenvolvimento de Sistema de Automação para Extração de Dados

Publicado em 16 de Agosto de 2025 dias na TI e Programação

Sobre este projeto

Aberto

Estamos buscando um desenvolvedor para criar um sistema para extração, filtragem e organização de dados de processos. O objetivo é otimizar a gestão de informações sobre processos de marcas, identificando aqueles sem procurador cadastrado e enriquecendo os dados com informações adicionais obtidas via web scraping.

As funcionalidades principais do sistema incluem:

1. Filtro de Processos na Revista Nacional do inpi (xml):
  o sistema deverá realizar a busca e o processamento de arquivos xml da revista nacional do inpi. Especificamente, será necessário identificar e extrair processos que não possuam um procurador cadastrado. O arquivo XML completo pode ser acessado em http://revistas.inpi.gov.br/rpi/, na seção 'V marcas', coluna 'XML'. Cada processo no XML contém informações como número do processo, titular e outros campos relevantes.

2. Cadastro de Processos em Arquivo CSV:
  Os processos identificados na etapa anterior (sem procurador) deverão ser inseridos ou atualizados em um arquivo CSV. Este arquivo deve conter as seguintes colunas: 'número do processo', 'andamento', 'data do despacho' (no formato DDMMAAAA), 'marca', 'classe' e 'titular'.

3. Web Scraping no Site do INPI:
  Um segundo script ou módulo do sistema será responsável por realizar web scraping no site oficial do INPI. Utilizando os números de processo extraídos na primeira etapa, o sistema deverá acessar a página de pesquisa de processos de marcas (https://busca.inpi.gov.br/pePI/jsp/marcas/Pesquisa_num_processo.jsp) para coletar informações adicionais. É Crucial que o sistema seja capaz de navegar e extrair dados, incluindo o e-mail do titular, que pode estar contido em documentos PDF acessíveis a partir desta página.

4. Cadastro de E-mails no Arquivo CSV:
  O e-mail do titular, obtido através do web scraping e extração de PDFs na etapa 3, deverá ser inserido na coluna 'e-mail' do arquivo CSV utilizado na etapa 2. Ao final desta etapa, o arquivo CSV deve estar completamente preenchido com todas as colunas para cada processo: 'número do processo', 'andamento', 'data do despacho', 'marca', 'classe', 'titular' e 'e-mail'.

Buscamos um profissional com experiência comprovada em desenvolvimento de software, web scraping e manipulação de dados (xml, csv, pdf). A solução deve ser eficiente, precisa e capaz de lidar com a estrutura dos dados do INPI.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Outro projetos publicados por G.