Sobre este proyecto
it-programming / artificial-intelligence-1
Abierto
Se requiere el desarrollo de una api basada en inteligencia artificial para automatizar la comparación de información entre archivos pdf de coves (comprobantes de valor electrónico) y el papel del importador. El objetivo principal es detectar inconsistencias de manera eficiente para prevenir multas y errores administrativos.
El sistema deberá procesar los siguientes tipos de entrada:
- Uno o varios archivos PDF correspondientes a COVEs por pedimento.
- Un archivo PDF principal que representa el Papel del Importador.
- Un parámetro opcional para definir la tolerancia numérica en las comparaciones (por ejemplo, ±0.01 USD).
El proceso de la API incluirá las siguientes etapas:
1. Lectura y extracción de texto de los PDFs, utilizando herramientas como pdfplumber y, si es necesario, tecnología OCR para imágenes o texto no seleccionable.
2. Normalización de los datos extraídos, eliminando comas, espacios y caracteres especiales para asegurar una comparación precisa.
3. Identificación de campos clave dentro de los documentos mediante la aplicación de patrones (expresiones regulares) y reglas de negocio específicas.
4. Realización de una comparación automática campo por campo entre los datos de los COVEs y el Papel del Importador.
5. Determinación del resultado global de la comparación: se indicará 'True' si todos los campos coinciden (sin inconsistencias) y 'False' si se detecta alguna discrepancia.
La salida esperada del sistema será:
- Un json estructurado que detalle los resultados de la comparación por cada cove y por cada campo analizado.
- Opcionalmente, un archivo Excel con un resumen comparativo de los documentos.
- Un resultado global (True/False) que indique la presencia o ausencia de inconsistencias en el conjunto de documentos.
La api deberá exponer los siguientes endpoints:
- post /compare: para recibir el pdf del papel del importador y uno o varios coves, ejecutar la comparación y devolver los resultados.
- GET /health: Para verificar la disponibilidad y el estado del servicio.
- POST /webhook/ingest (Opcional): Para recibir archivos directamente desde servicios de almacenamiento en la nube como Google Drive o Dropbox, facilitando el procesamiento sin descarga manual.
Categoría Programación y Tecnología
Subcategoría Inteligencia Artificial
Tamaño del proyecto Grande
Plazo de Entrega: No definido
Habilidades necesarias