Evaluando propuestas

Desarrollo de Sistema Rag para Archivo Editorial de 25.000 Páginas Pdf

Publicado el 18 Noviembre, 2025 en Programación y Tecnología

Sobre este proyecto

Abierto

Buscamos un profesional o equipo con experiencia demostrable en Retrieval Augmented Generation (RAG) y tratamiento de grandes volúmenes documentales para desarrollar un sistema que gestione nuestro archivo histórico. Somos una editorial con aproximadamente 25.000 páginas en pdf, ya procesadas con ocr y con contenido en catalán, provenientes de dos revistas locales. El objetivo es crear un buscador web sencillo y privado para nuestro equipo editorial.

El alcance del proyecto incluye las siguientes fases:

Ingesta de PDFs y extracción de texto de las 25.000 páginas.
Segmentación precisa del contenido por artículos.
Generación de embeddings utilizando OpenAI o tecnologías equivalentes.
Implementación de una base de datos vectorial, preferiblemente Qdrant o Weaviate.
Desarrollo de un buscador web con interfaz sencilla que permita realizar consultas por temas, autores y palabras clave.
El acceso al sistema debe ser privado y exclusivo para un pequeño equipo editorial.
La entrega del proyecto debe incluir el código completamente documentado.

Se valorará positivamente la posibilidad de ofrecer soporte o mantenimiento puntual tras la finalización del proyecto.

Requisitos del perfil del freelancer:

Experiencia previa y demostrable en la creación de sistemas RAG o motores de búsqueda semántica.
Sólidos conocimientos en Procesamiento del Lenguaje Natural (NLP), generación de embeddings y bases de datos vectoriales.
Excelente nivel de comunicación y claridad técnica para la colaboración.
Es deseable, aunque no excluyente, experiencia en el procesamiento de textos en catalán.

Qué esperamos del freelancer:

Una propuesta técnica clara y realista que detalle la metodología y las herramientas a utilizar.
Una estimación detallada de los tiempos de ejecución y los costes asociados al proyecto.
Presentación de ejemplos de trabajos similares realizados previamente, si es posible.

Categoría Programación y Tecnología
Subcategoría Inteligencia Artificial
Tamaño del proyecto Grande

Plazo de Entrega: No definido

Habilidades necesarias