Sobre este projeto
it-programming / artificial-intelligence-1
Aberto
Descripción del proyecto
Buscamos un desarrollador de Automatización e IA con experiencia para desarrollar un pipeline de procesamiento documental en producción que ingiera largos documentos PDFs escaneados y documentos Word que contienen múltiples documentos escaneados juntos, realice ocr con validación de calidad y fallback a servicios cloud, detecte límites de documentos multipágina, clasifique las páginas en categorías documentales estandarizadas, genere una categoría estimada (“best guess”) cuando sea necesario, y almacene todo el texto extraído y sus metadatos en una base de datos estructurada para su uso posterior por modelos llm.
Alcance técnico (resumen)
El sistema deberá:
- Dividir PDFs largos en páginas individuales
- Ejecutar OCR primario (local / self-hosted) con comprobaciones objetivas de calidad
- Aplicar fallback automático a Azure Document Intelligence cuando la calidad del OCR sea baja
- Detectar si una página es continuación de un documento previo o el inicio de uno nuevo
- Clasificar páginas en categorías documentales estandarizadas
- Generar una categoría informada (“best guess”) cuando no aplique ninguna categoría estándar
- Almacenar texto, puntuaciones de confianza, agrupación de documentos y metadatos en PostgreSQL
- Implementarse y orquestarse utilizando n8n + Python
Experiencia requerida y stack tecnológico:
- n8n
- Pipelines de OCR (PaddleOCR, Tesseract o similares)
- Azure Document Intelligence (u otro OCR cloud equivalente)
- Python (preprocesamiento OCR, métricas, tratamiento de texto)
- PostgreSQL
- APIs de LLM (OpenAI / Azure OpenAI)
- Diseño de umbrales de confianza, lógica de fallback y mecanismos de control de clasificación
Entregables:
- Workflow funcional en n8n
- Scripts en Python utilizados por el pipeline
- DB báscia en PostgreSQL
Documentación técnica clara explicando:
- Lógica de validación de calidad del OCR
- Lógica de clasificación
- Reglas de fallback y toma de decisiones
Para que tu propuesta sea evaluada, debes incluir obligatoriamente: ejemplos reales y específicos de proyectos similares que hayas desarrollado, un rango estimado de presupuesto, y una estimación de plazos de entrega.
Las propuestas que no incluyan esta información no serán revisadas.
Categoria TI e Programação
Subcategoria Inteligência Artificial
Tamanho do projeto Grande
Duração do projeto Não estabelecido
Habilidades necessárias