Extraccion y organizacion de contenido textual... - Se Busca Freelancer

Sobre este proyecto

Abierto

Se busca un freelancer experto para extraer y organizar contenido textual de un lote de archivos PDF. La tarea principal consiste en abrir cada pdf, capturar todo el texto presente y estructurarlo en un archivo maestro csv o excel. Es fundamental que la extracción mantenga la integridad de cada oración y el orden original del texto. Se requiere agregar dos columnas adicionales en el archivo de salida: una para el nombre del archivo PDF original y otra para el número de página de donde se extrajo el texto. Las tablas e imágenes dentro de los PDF deben ser ignoradas; el enfoque es exclusivamente en el contenido textual. La mayoría de los archivos pdf son legibles por máquina, pero se anticipa que un pequeño porcentaje podría requerir la aplicación de ocr ligero para asegurar la captura completa del texto. La precisión es un requisito clave: cada párrafo debe estar presente, los saltos de línea deben manejarse de manera sensata y no deben introducirse caracteres perdidos durante el proceso. Los entregables esperados incluyen: un archivo maestro CSV/Excel que contenga todo el texto extraído, el nombre de archivo y el número de página; cualquier script, configuración de herramienta o notas claras paso a paso que permitan reproducir el proceso; y una muestra rápida de tres archivos procesados para su revisión y aprobación antes de proceder con el conjunto completo de documentos.

Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio

Plazo de Entrega: No definido

Habilidades necesarias

Python Scripts & Utilities QA Extract Transform Load...

Extracción y Organización de Contenido Textual de Archivos Pdf con Ocr Ligero

Sobre este proyecto

it-programming / data-science-1

Abierto

Otros proyectos publicados por D. C.