Terminado

Ajustar Script Python para Pdf → Csv seguindo schema Postgresql

Publicado el 01 Junio, 2025 en Programación y Tecnología

Sobre este proyecto

Abierto

Sou desenvolvedor e já iniciei um script em Python que extrai dados dos PDFs do Inmetro (anos de 2023 a 2025) com sucesso. Porém, os PDFs dos anos anteriores (2009 a 2022) possuem algumas variações no layout e nomes de colunas, o que dificulta o parsing uniforme dos dados.

Estou sem tempo para ajustar o script para esses anos mais antigos e preciso de uma força pontual. O script já está limpo, funcional e bem organizado — falta só tratar essas variações e garantir que a saída final siga fielmente o padrão definido.

Preferencia para orçamentos mais baixos.

Contexto general del proyecto

Os arquivos PDF já estão baixados, e só precisam ser processados. A saída esperada são três arquivos CSV consistentes: veiculos.csv consumo.csv emissoes.csv Os nomes das colunas, os tipos de dados e a estrutura já estão definidos, e vou fornecer: O script atual que funciona para 2023 a 2025; Um CSV de exemplo com o padrão esperado; Lista com os nomes exatos das colunas a seguir. 🟪 O que estou buscando: Alguém com experiência sólida em pdfplumber, pandas, e tratamento de dados em Python; Que saiba lidar com variações entre versões de PDFs; Capricho na limpeza e padronização dos dados (inclusive com normalizações como combustível, transmissão, etc.); Comunicação direta e técnica (sou dev, posso explicar rapidamente o que já está pronto).

Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Pequeño
¿Es un proyecto o una posición? Un proyecto
Disponibilidad requerida Según se necesite

Plazo de Entrega: No definido

Habilidades necesarias

Otros proyectos publicados por Erik M.