Se busca un equipo o desarrollador para crear una aplicación web integral diseñada para procesar el audio de reuniones presenciales de directorio. El objetivo principal es generar transcripciones precisas con identificación de hablantes y producir minutas estructuradas de forma automática, utilizando inteligencia artificial avanzada. Este sistema debe gestionar el flujo completo, desde la carga del archivo de audio hasta la generación y exportación del documento final de minuta.
Las reuniones a procesar pueden incluir hasta 24 participantes y tener una duración de entre 1 y 4 horas. La solución debe ir más allá de la simple transcripción, entregando un documento de minuta listo para una revisión mínima, que incorpore el formato corporativo del cliente e identifique claramente resoluciones, votaciones y compromisos asumidos.
Detalle del proyecto:
https://docs.google.com/document/d/1PpziWEy0pXbeU7agwuN9A0wJ9sHBog4c/edit?usp=sharing&ouid=101864952637060413969&rtpof=true&sd=true
El alcance funcional del proyecto incluye los siguientes módulos:
1. Módulo de Ingesta:
- Portal web intuitivo para la carga de archivos de audio en formatos comunes (WAV, MP3, M4A).
- Funcionalidad para cargar una lista de asistentes, incluyendo su nombre y rol (por ejemplo, presidente, secretario, director).
- Opción para seleccionar un template de minuta predefinido según el tipo de reunión.
- Seguimiento del estado de procesamiento en tiempo real para el usuario.
2. Pipeline de Procesamiento (Backend):
- Diarización automática del audio para segmentar por hablante, utilizando librerías como
pyannote.audio. El output esperado son segmentos con etiquetas de hablante y sus respectivos timestamps.
- Transcripción speech-to-text en español, preferentemente con modelos como Whisper (vía OpenAI API o implementación local). Es crucial el soporte para vocabulario técnico y jerga empresarial específica.
- Fusión de los resultados de diarización y transcripción mediante alineación de timestamps.
- Asignación de nombres reales a los hablantes identificados.
- Generación de la minuta estructurada utilizando APIs de inteligencia artificial, como Claude de Anthropic, incluyendo la extracción automática de temas tratados.
3. Módulo de Revisión y Edición:
- Un editor inline que permita la revisión y edición de la minuta generada antes de su exportación.
- Herramientas para la corrección manual de nombres de hablantes.
- Funcionalidad para validar resoluciones y compromisos antes de la distribución del documento.
4. Módulo de Output:
- Exportación de la minuta a formato PDF, manteniendo el formato corporativo del cliente.
- Exportación a formato DOCX editable.
- Un historial de minutas organizado por fecha y reunión.
- Capacidad de búsqueda full-text sobre minutas anteriores para facilitar la consulta.
Plazo de Entrega: No definido