Analisando propostas

Extracción y Organización de Contenido Textual de Archivos Pdf con Ocr Ligero

Publicado em 04 de Dezembro de 2025 dias na TI e Programação

Sobre este projeto

Aberto

Se busca un freelancer experto para extraer y organizar contenido textual de un lote de archivos PDF. La tarea principal consiste en abrir cada pdf, capturar todo el texto presente y estructurarlo en un archivo maestro csv o excel. Es fundamental que la extracción mantenga la integridad de cada oración y el orden original del texto. Se requiere agregar dos columnas adicionales en el archivo de salida: una para el nombre del archivo PDF original y otra para el número de página de donde se extrajo el texto. Las tablas e imágenes dentro de los PDF deben ser ignoradas; el enfoque es exclusivamente en el contenido textual. La mayoría de los archivos pdf son legibles por máquina, pero se anticipa que un pequeño porcentaje podría requerir la aplicación de ocr ligero para asegurar la captura completa del texto. La precisión es un requisito clave: cada párrafo debe estar presente, los saltos de línea deben manejarse de manera sensata y no deben introducirse caracteres perdidos durante el proceso. Los entregables esperados incluyen: un archivo maestro CSV/Excel que contenga todo el texto extraído, el nombre de archivo y el número de página; cualquier script, configuración de herramienta o notas claras paso a paso que permitan reproducir el proceso; y una muestra rápida de tres archivos procesados para su revisión y aprobación antes de proceder con el conjunto completo de documentos.

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Médio

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Outro projetos publicados por D. C.