Desenvolvimento de programa para extracao de... - Procura-se Freelancer

Sobre este projeto

Aberto

Busca-se um profissional para desenvolver um programa robusto e eficiente capaz de processar arquivos PDF de grande volume, especificamente a "Revista da Propriedade Industrial - RPI". O objetivo principal é automatizar a extração de informações textuais e visuais desses documentos.

As funcionalidades esperadas do programa incluem:
- Leitura e parsing de arquivos PDF complexos que contêm tanto texto quanto imagens.
- Extração precisa de dados textuais, que deverão ser transformados e padronizados em formato JSON.
- Extração de imagens contidas nos PDFs, com cada imagem sendo salva individualmente e nomeada de acordo com o número do processo associado.

O programa deverá ser inicialmente executável em um ambiente Windows local (máquina física). Adicionalmente, é fundamental que o programa seja projetado para permitir sua alocação e execução em um serviço Azure, replicando o mesmo procedimento de processamento de arquivos em um ambiente de nuvem.

Será fornecido um exemplar da Revista da Propriedade Industrial (RPI) para análise e compreensão da estrutura do documento, podendo ser baixado através do site https://revistas.inpi.gov.br/pdf/Marcas2852.pdf.

Categoria TI e Programação
Subcategoria Aplicativos desktop
Qual é o alcance do projeto? Criar um novo aplicativo

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Python Java C# .NET Microsoft Azure JSON Data Mining Windows Adobe PDF Microsoft Office

Desenvolvimento de Programa para Extração de Dados e Imagens de Pdfs Rpi para Json e Azure

Sobre este projeto

it-programming / desktop-apps

Aberto

Outro projetos publicados por O.