Sobre este proyecto
it-programming / data-science-1
Abierto
Se busca un experto para revisar y optimizar los procesos de datos actuales, con un enfoque particular en Google BigQuery. El proyecto implica una revisión exhaustiva de los flujos de trabajo existentes, la implementación de estándares de estructura y la mejora de la robustez de los scripts de procesamiento de datos. El objetivo es asegurar la eficiencia, mantenibilidad y fiabilidad de nuestra infraestructura de datos.
Alcance del Trabajo:
* Revisar los procesos de datos actuales, identificando qué scripts se ejecutan, sus entradas y salidas, y los puntos de falla típicos.
* Proponer y aplicar un estándar de estructura coherente en BigQuery, incluyendo la organización de datasets y tablas, convenciones de nomenclatura y definición de capas de datos.
* Mejorar y refactorizar los scripts existentes para garantizar que sean idempotentes, incorporen un sistema de logging robusto y manejen errores de manera controlada.
* Crear documentación mínima pero esencial que describa cómo se ejecutan los procesos, los pasos para la depuración y qué acciones tomar en caso de fallas.
Entregables:
* Una estructura y convenciones de datos claramente definidas y aplicadas dentro de BigQuery.
* Scripts de procesamiento de datos refactorizados, con logs detallados y manejo de errores implementado.
* Un runbook conciso (en formato Markdown o documento) que sirva como guía operativa para los procesos.
Requisitos:
* Experiencia comprobada y práctica con Google BigQuery, incluyendo el uso avanzado de SQL, gestión de particiones y clustering, y optimización de costos.
* Experiencia sólida con scripting en bash/shell. Se valorará positivamente la experiencia adicional con Python.
* Capacidad para trabajar de forma incremental, realizando mejoras progresivas sin la necesidad de rehacer completamente los sistemas existentes.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Grande
Plazo de Entrega: No definido
Habilidades necesarias