Sobre este proyecto
it-programming / data-science-1
Abierto
Estate Atlas, una startup de datos como servicio (DaaS) con la misión de ser la principal fuente mundial de datos inmobiliarios internacionales, busca un especialista en ETL con experiencia en Python. Ya contamos con una infraestructura ETL sin servidor de vanguardia y ahora necesitamos expandir significativamente nuestra cobertura de datos.
El profesional seleccionado se centrará en la parte fundamental de nuestra estrategia de datos: identificar, verificar e integrar fuentes de datos internacionales de alto valor en nuestro ecosistema. El objetivo es expandir nuestra cobertura a más de 15 países, asegurando que los datos brutos de diversas fuentes globales sean extraídos, limpiados y cargados correctamente en nuestro lago de datos.
Responsabilidades diarias clave incluyen:
Exploración y verificación de fuentes: Investigar y localizar activamente fuentes de datos fiables (registros gubernamentales, bancos centrales, portales inmobiliarios, etc.). Se deberá crear hojas de datos para verificar la fiabilidad, el formato y la frecuencia de actualización de cada fuente.
Integración de pipelines: Escribir y mantener scripts Python eficientes para extraer datos brutos e integrarlos en nuestro pipeline ETL sin servidor existente.
Perfilado y calidad de datos: Analizar datos de muestra para comprender su estructura, incluyendo la comprobación de valores nulos, únicos y atípicos. Se deberán definir reglas de negocio claras para garantizar la calidad de los datos.
Estandarización: Implementar lógica de transformación utilizando herramientas como Polars y DuckDB para estandarizar diversos conjuntos de datos, por ejemplo, la conversión de monedas a USD.
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
Plazo de Entrega: No definido
Habilidades necesarias