Sobre este proyecto
it-programming / desktop-apps
Abierto
Somos una empresa industrial en Argentina y buscamos un desarrollador para crear una herramienta que automatice la carga de órdenes de compra (oc) recibidas en formato pdf. Actualmente, el proceso es manual, lento y propenso a errores, ya que implica la identificación de productos y la búsqueda de equivalencias entre códigos de cliente y códigos internos.
El objetivo principal es desarrollar una solución que optimice este proceso, permitiendo una gestión más eficiente y precisa de las órdenes de compra.
Funcionalidades clave requeridas:
Lectura de Órdenes de Compra en PDF: La herramienta debe ser capaz de procesar archivos PDF de órdenes de compra, incluso si presentan distintos formatos y estructuras.
Extracción Automática de Datos: Se requiere la extracción precisa de datos relevantes de cada OC. Los datos a extraer incluyen: Número de OC, fechas, cliente, planta, posición, código de producto, descripción, cantidad, unidad, precio, moneda y observaciones.
Identificación de Líneas de Producto: La herramienta debe poder identificar y procesar cada línea de producto dentro de la orden de compra.
Cruce de Códigos: Es fundamental que la herramienta realice un cruce automático entre los códigos de producto del cliente (presentes en el PDF) y nuestros códigos internos, utilizando una tabla de equivalencias que será provista.
Generación de Salida Estructurada: La salida esperada es un archivo Excel con un formato predefinido, listo para ser copiado directamente en nuestro sistema. El Excel debe incluir las siguientes columnas: Cliente, Nº oc, fechas, planta, posición, código cliente, descripción cliente, código interno, descripción interna, cantidad, unidad, precio, moneda, observaciones y estado (ok/revisar).
Requisitos técnicos y de funcionalidad:
Capacidad para leer PDFs multipágina.
Interpretación robusta de tablas, incluso con variaciones de formato.
Sistema de marcado para errores o faltantes en la extracción o el cruce de datos.
Generación de archivos Excel con el formato especificado.
Alcance del proyecto:
Fase 1 (MVP): Implementación de la funcionalidad básica para operar con 1-2 formatos de PDF específicos, demostrando la viabilidad y precisión del sistema.
Fase 2: Escalabilidad de la solución para soportar múltiples formatos de PDF y mejora continua de la precisión de la extracción y el cruce de datos.
Valoramos la experiencia en:
Automatización de procesos.
Procesamiento y parsing de documentos PDF (preferentemente con Python u otras tecnologías relevantes).
Implementación de técnicas de OCR (reconocimiento óptico de caracteres) si es necesario para la interpretación de PDFs.
Manejo y estructuración de datos.
Categoría Programación y Tecnología
Subcategoría Aplicaciones de escritorio
¿Cuál es el alcance del proyecto? Bug o cambio pequeño
Plazo de Entrega: No definido
Habilidades necesarias