Sobre este projeto
it-programming / data-science-1
Aberto
Se busca un freelancer experto para extraer y organizar contenido textual de un lote de archivos PDF. La tarea principal consiste en abrir cada pdf, capturar todo el texto presente y estructurarlo en un archivo maestro csv o excel. Es fundamental que la extracción mantenga la integridad de cada oración y el orden original del texto. Se requiere agregar dos columnas adicionales en el archivo de salida: una para el nombre del archivo PDF original y otra para el número de página de donde se extrajo el texto. Las tablas e imágenes dentro de los PDF deben ser ignoradas; el enfoque es exclusivamente en el contenido textual. La mayoría de los archivos pdf son legibles por máquina, pero se anticipa que un pequeño porcentaje podría requerir la aplicación de ocr ligero para asegurar la captura completa del texto. La precisión es un requisito clave: cada párrafo debe estar presente, los saltos de línea deben manejarse de manera sensata y no deben introducirse caracteres perdidos durante el proceso. Los entregables esperados incluyen: un archivo maestro CSV/Excel que contenga todo el texto extraído, el nombre de archivo y el número de página; cualquier script, configuración de herramienta o notas claras paso a paso que permitan reproducir el proceso; y una muestra rápida de tres archivos procesados para su revisión y aprobación antes de proceder con el conjunto completo de documentos.
Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Médio
Prazo de Entrega: Não estabelecido
Habilidades necessárias