Evaluando propuestas

Extracción y Organización de Contenido Textual de Archivos Pdf con Ocr Ligero

Publicado el 19 Enero, 2026 en Programación y Tecnología

Sobre este proyecto

Abierto

Se busca un profesional para extraer y organizar el contenido textual de un lote de archivos PDF. La tarea principal consiste en abrir cada pdf, capturar todo el texto y colocarlo en un archivo estructurado, preferiblemente csv o excel. Es fundamental que el contenido textual se mantenga intacto, con cada oración en su orden original, sin limpieza de datos adicional más allá de asegurar la integridad del texto. Se deberá agregar una columna para el nombre de archivo original y otra para el número de página de donde proviene cada segmento de texto. Las tablas e imágenes deben ignorarse; solo el texto es relevante. La mayoría de las páginas son legibles por máquina, pero se anticipa que un pequeño número podría requerir OCR ligero para garantizar la extracción completa. La precisión es clave: cada párrafo debe estar presente, los saltos de línea deben manejarse de manera sensata y no deben introducirse caracteres perdidos.

Entregables requeridos:

*  Un archivo maestro en formato CSV o Excel que contenga todo el texto extraído, junto con el nombre de archivo original y el número de página correspondiente.
*  Cualquier script, configuración de herramienta utilizada o notas claras paso a paso que permitan reproducir el proceso de extracción.
*  Una muestra rápida de tres archivos procesados para su revisión y aprobación antes de proceder con el procesamiento del conjunto completo de archivos.

Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio

Plazo de Entrega: No definido

Habilidades necesarias

Otros proyectos publicados por M. A.