Extraccion y organizacion de contenido textual... - Procura-se Freelancer

Sobre este projeto

Aberto

Se busca un profesional para extraer y organizar el contenido textual de un lote de archivos PDF. La tarea principal consiste en abrir cada pdf, capturar todo el texto y colocarlo en un archivo estructurado, preferiblemente csv o excel. Es fundamental que el contenido textual se mantenga intacto, con cada oración en su orden original, sin limpieza de datos adicional más allá de asegurar la integridad del texto. Se deberá agregar una columna para el nombre de archivo original y otra para el número de página de donde proviene cada segmento de texto. Las tablas e imágenes deben ignorarse; solo el texto es relevante. La mayoría de las páginas son legibles por máquina, pero se anticipa que un pequeño número podría requerir OCR ligero para garantizar la extracción completa. La precisión es clave: cada párrafo debe estar presente, los saltos de línea deben manejarse de manera sensata y no deben introducirse caracteres perdidos.

Entregables requeridos:

* Un archivo maestro en formato CSV o Excel que contenga todo el texto extraído, junto con el nombre de archivo original y el número de página correspondiente.
* Cualquier script, configuración de herramienta utilizada o notas claras paso a paso que permitan reproducir el proceso de extracción.
* Una muestra rápida de tres archivos procesados para su revisión y aprobación antes de proceder con el procesamiento del conjunto completo de archivos.

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Médio

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Data Mining Python R programming language QA Scripts & Utilities Modelagem de Dados

Extracción y Organización de Contenido Textual de Archivos Pdf con Ocr Ligero

Sobre este projeto

it-programming / data-science-1

Aberto

Outro projetos publicados por M. A.