Evaluating bids

Desenvolvimento de parser Pdf para extração de dados conforme modelo

Published on the June 14, 2023 in IT & Programming

About this project

Open

Preciso de um desenvolvedor para desenvolvimento do projeto abaixo:

Um parser pdf que extraia dados dos documentos.

Esse parser deve identificar determinados padrões configuráveis nos documentos.

Tomando como exemplo um recibo de pagamento de salário e o parser deve ser capaz de:
1 - Identificar a empresa pagadora;
2 - Identificar o CNPJ da empresa pagadora;
3 - Identificar o recebedor;
4 -  Identificar o CPF do recebedor;
5 - Identificar a competência;
6 - Identificar o valor liquido do recebimento;

Os campos a serem identificados devem ser personalizáveis ou cadastráveis através de algum tipo de interface para que seja possível cadastro de outros tipos de documentos.

Creio que a solução seja extrair todo o texto do documento e em seguida analisa-lo em busca de padrões regex.

O retorno deve ser em json formatado contendo apenas os dados indexados e o caminho do arquivo.

Category IT & Programming
Subcategory Web development
What is the scope of the project? Small change or bug
Is this a project or a position? I don’t know yet
I currently have I have an idea
Required availability As needed
Experience in this type of projects Yes (I have managed this kind of project before)
API Integrations Cloud Storage (Dropbox, Google Drive, etc.), Other (Other APIs)
Roles needed Developer

Delivery term: Not specified

Skills needed

Other projects posted by R. A.