Sobre este proyecto
it-programming / data-science-1
Abierto
Se busca un experto en ingeniería de datos para construir un pipeline de procesamiento de datos robusto y automatizado, diseñado para la creación de un dataset profesional para la predicción de apuestas deportivas en la MLB (moneyline y over/under). El cliente ya ha descargado todos los archivos json crudos de la api de mysportsfeeds (boxscores, lineups, odds, player logs, team logs) desde 2021 hasta la fecha actual.
El objetivo principal es transformar estos datos crudos en un dataset completo, limpio y estructurado en formato .parquet, donde cada fila represente un juego individual. El pipeline debe ser totalmente automatizado e incremental, permitiendo que el cliente solo necesite realizar las llamadas a la api para obtener nuevos json, y el proceso de limpieza, validación y agregación se ejecute de forma autónoma, sin requerir intervención manual o reescritura de código.
El dataset final debe incluir las siguientes características clave:
- Pitcher abridor, con un mecanismo de fallback para considerar datos de vs. Lineup o vs. Team si el pitcher no está disponible.
- Estadísticas de bateo del equipo, ya sea a nivel de lineup o de equipo.
- Información sobre el bullpen disponible para cada juego.
- Odds de apertura y cierre (moneyline y totals) en formato americano.
- Datos meteorológicos y otros datos relevantes del juego, si están disponibles en los JSON de origen.
Es fundamental que el proyecto se centre exclusivamente en la construcción del dataset y el pipeline de datos, sin incluir el desarrollo de modelos predictivos. Los scripts deben ser modularizados para facilitar el mantenimiento y la escalabilidad. Se debe garantizar la ausencia de fugas de datos, evitando el uso de información futura en el procesamiento. El output del dataset debe generarse por año en archivos .parquet separados, además de un archivo unificado que contenga todos los datos. Se requiere documentación clara y concisa para asegurar el mantenimiento futuro del sistema.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Grande
Duración del proyecto No definido
Habilidades necesarias