Sobre este proyecto
it-programming / data-science-1
Abierto
Se busca un profesional con experiencia en extracción de datos para un proyecto que implica la minería de información numérica de documentos PDF y su posterior inserción en una base de datos PostgreSQL. El lote de documentos PDF contiene exclusivamente cifras de ventas, totales de cuentas y subtotales de artículos de línea. La precisión es fundamental para este proyecto.
Las responsabilidades incluyen:
1. Abrir cada documento PDF, identificar y localizar tablas o listas numéricas, y capturar cada cifra con la máxima exactitud, evitando cualquier error de transcripción.
2. Utilizar la herramienta de importación proporcionada para poblar una base de datos PostgreSQL existente. Esto implica hacer coincidir correctamente las columnas y los tipos de datos para cada registro.
3. Realizar una verificación exhaustiva para detectar decimales mal colocados, filas faltantes o cualquier inconsistencia en los datos antes de entregar el trabajo.
El cliente proporcionará los documentos PDF, el esquema completo de la base de datos y un breve vídeo instructivo que detalla el flujo de trabajo de importación. El entregable esperado es un archivo de base de datos poblado (o un volcado SQL) que refleje el esquema proporcionado con total exactitud y que supere una comprobación rápida de precisión. Se valorará la experiencia previa en extracciones numéricas de PDF y la comodidad trabajando directamente en entornos de base de datos.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
Plazo de Entrega: No definido
Habilidades necesarias