Realizado

Ajustar Script Python para Pdf → Csv seguindo schema Postgresql

Publicado em 01 de Junho de 2025 dias na TI e Programação

Sobre este projeto

Aberto

Sou desenvolvedor e já iniciei um script em Python que extrai dados dos PDFs do Inmetro (anos de 2023 a 2025) com sucesso. Porém, os PDFs dos anos anteriores (2009 a 2022) possuem algumas variações no layout e nomes de colunas, o que dificulta o parsing uniforme dos dados.

Estou sem tempo para ajustar o script para esses anos mais antigos e preciso de uma força pontual. O script já está limpo, funcional e bem organizado — falta só tratar essas variações e garantir que a saída final siga fielmente o padrão definido.

Preferencia para orçamentos mais baixos.

Contexto Geral do Projeto

Os arquivos PDF já estão baixados, e só precisam ser processados. A saída esperada são três arquivos CSV consistentes: veiculos.csv consumo.csv emissoes.csv Os nomes das colunas, os tipos de dados e a estrutura já estão definidos, e vou fornecer: O script atual que funciona para 2023 a 2025; Um CSV de exemplo com o padrão esperado; Lista com os nomes exatos das colunas a seguir. 🟪 O que estou buscando: Alguém com experiência sólida em pdfplumber, pandas, e tratamento de dados em Python; Que saiba lidar com variações entre versões de PDFs; Capricho na limpeza e padronização dos dados (inclusive com normalizações como combustível, transmissão, etc.); Comunicação direta e técnica (sou dev, posso explicar rapidamente o que já está pronto).

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Outro projetos publicados por Erik M.