Sobre este proyecto
it-programming / data-science-1
Abierto
Se busca un experto para automatizar un proceso de speech analytics existente, actualmente ejecutándose en Google Colab. El proyecto implica el desarrollo de un pipeline robusto y eficiente en Google Cloud Platform (GCP) utilizando Python. Los codigos en python ya existen. Las tareas clave incluyen:
1. Descarga y gestión de archivos de audio.
2. Transformación de los archivos de audio al formato WAV.
3. Implementación de una solución de Speech-to-Text para transcribir el audio.
4. Creación y gestión de una base de datos de metadatos final.
Se recomienda el uso de las siguientes herramientas y servicios de GCP para la automatización:
* Prefect Cloud para la orquestación de flujos de trabajo.
* Cloud Run Jobs para la ejecución de tareas sin servidor.
* Cloud Storage para el almacenamiento de datos de audio y metadatos.
* Cloud Scheduler para programar la ejecución del pipeline.
Es fundamental mantener o mejorar la velocidad de procesamiento actual. El cliente ya utiliza una cuenta Google Pro para operaciones en la nube, lo que facilita la integración con los servicios de GCP.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Grande
Plazo de Entrega: No definido
Habilidades necesarias