Sobre este proyecto
it-programming / data-science-1
Abierto
Se busca un profesional para extraer y organizar el contenido textual de un lote de archivos PDF. La tarea principal consiste en abrir cada pdf, capturar todo el texto y colocarlo en un archivo estructurado, preferiblemente csv o excel. Es fundamental que el contenido textual se mantenga intacto, con cada oración en su orden original, sin limpieza de datos adicional más allá de asegurar la integridad del texto. Se deberá agregar una columna para el nombre de archivo original y otra para el número de página de donde proviene cada segmento de texto. Las tablas e imágenes deben ignorarse; solo el texto es relevante. La mayoría de las páginas son legibles por máquina, pero se anticipa que un pequeño número podría requerir OCR ligero para garantizar la extracción completa. La precisión es clave: cada párrafo debe estar presente, los saltos de línea deben manejarse de manera sensata y no deben introducirse caracteres perdidos.
Entregables requeridos:
* Un archivo maestro en formato CSV o Excel que contenga todo el texto extraído, junto con el nombre de archivo original y el número de página correspondiente.
* Cualquier script, configuración de herramienta utilizada o notas claras paso a paso que permitan reproducir el proceso de extracción.
* Una muestra rápida de tres archivos procesados para su revisión y aprobación antes de proceder con el procesamiento del conjunto completo de archivos.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
Plazo de Entrega: No definido
Habilidades necesarias