Busca-se um profissional para desenvolver um programa robusto e eficiente capaz de processar arquivos PDF de grande volume, especificamente a "Revista da Propriedade Industrial - RPI". O objetivo principal é automatizar a extração de informações textuais e visuais desses documentos.
As funcionalidades esperadas do programa incluem:
- Leitura e parsing de arquivos PDF complexos que contêm tanto texto quanto imagens.
- Extração precisa de dados textuais, que deverão ser transformados e padronizados em formato JSON.
- Extração de imagens contidas nos PDFs, com cada imagem sendo salva individualmente e nomeada de acordo com o número do processo associado.
O programa deverá ser inicialmente executável em um ambiente Windows local (máquina física). Adicionalmente, é fundamental que o programa seja projetado para permitir sua alocação e execução em um serviço Azure, replicando o mesmo procedimento de processamento de arquivos em um ambiente de nuvem.
Será fornecido um exemplar da Revista da Propriedade Industrial (RPI) para análise e compreensão da estrutura do documento, podendo ser baixado através do site
https://revistas.inpi.gov.br/pdf/Marcas2852.pdf.
Prazo de Entrega: Não estabelecido