Sobre este proyecto
it-programming / artificial-intelligence-1
Abierto
Estamos buscando un Ingeniero de Software Senior altamente calificado para desarrollar el componente central de un sistema "Text-to-SQL" para una plataforma educativa Enterprise. Este sistema será fundamental para permitir a los usuarios interactuar con datos complejos utilizando lenguaje natural.
El Desafío Principal:
El objetivo es diseñar e implementar una api robusta y escalable que sea capaz de traducir lenguaje natural a consultas sql complejas para una base de datos mysql 8. La plataforma es multi-tenant y cuenta con más de 500 tablas, lo que implica que las consultas generadas frecuentemente requerirán uniones (JOINs) de 5 a 10 tablas.
Responsabilidad Principal:
El profesional será responsable de diseñar e implementar una API en Python utilizando FastAPI, la cual deberá ser contenerizada en Docker. Esta API utilizará LangChain o LangGraph para orquestar de manera inteligente la generación, validación sintáctica y autocorrección de las consultas SQL. El sistema debe ser iterativo, permitiendo al agente modificar consultas SQL previas en respuesta a solicitudes de cambio del usuario (ej. "Agrega la columna fecha").
Requerimientos Técnicos (Must-Have):
* Arquitectura RAG sobre Metadatos: Implementar un sistema de Recuperación Aumentada por Generación (RAG) que recupere solo el esquema de base de datos relevante (tablas y columnas) basado en la pregunta del usuario (Semantic Schema Linking). Esto es crucial para evitar saturar el contexto del Large Language Model (LLM).
* Agentes y LangGraph: Desarrollar un flujo de trabajo agéntico que incluya los siguientes pasos: Generación de SQL -> Validación de Sintaxis -> Autocorrección si la validación falla. La capacidad de iterar y modificar consultas existentes es esencial.
* Manejo de Contexto Multi-tenant: La API debe ser capaz de recibir un `institution_id` y conectarse dinámicamente a la base de datos MySQL distribuida correcta para cada institución.
Stack Tecnológico Requerido:
* Lenguaje de Programación: Python 3.10+
* Framework Web: FastAPI
* Orquestación de LLM: LangChain / LangGraph (Excluyente)
* Base de Datos: MySQL 8
* Bases de Datos Vectoriales: ChromaDB, FAISS o PGVector (para la capa semántica)
* Contenerización: Docker
Entregables del Proyecto:
* api rest dockerizada: un endpoint `/generate` que reciba `question`, `history`, `institution_id` y devuelva un objeto con `sql_query` y `explanation`.
* Capa Semántica: Un script de indexación que procese el DDL (Data Definition Language) de las 500 tablas y las transforme en embeddings consultables para el sistema RAG.
* Documentación: Documentación completa de la API (Swagger/OpenAPI) y una guía detallada para el despliegue en AWS.
Perfil Buscado:
* Experiencia comprobable en la construcción de sistemas RAG en entornos de producción.
* Conocimiento profundo y experiencia práctica con SQL.
* Capacidad demostrada para escribir código limpio, modular y fuertemente tipado.
Categoría Programación y Tecnología
Subcategoría Inteligencia Artificial
Tamaño del proyecto Grande
Plazo de Entrega: No definido
Habilidades necesarias