Sobre este proyecto
it-programming / data-science-1
Abierto
Estate Atlas, una startup de datos como servicio (DaaS) con la misión de ser la principal fuente mundial de datos inmobiliarios internacionales, busca un desarrollador Python ETL experimentado. Ya contamos con una infraestructura ETL de vanguardia sin servidor y necesitamos expandir nuestra cobertura de datos.
El profesional seleccionado se centrará en la parte fundamental de nuestra estrategia de datos: localizar fuentes de datos internacionales de alto valor, verificar su precisión e integrar estos datos en nuestro ecosistema. Serás responsable de expandir nuestra cobertura a más de 15 países, asegurando que los datos sin procesar de diversas fuentes globales se extraigan, limpien y carguen correctamente en nuestro lago de datos.
Responsabilidades diarias clave:
Exploración y verificación de fuentes: Investigar y localizar activamente fuentes de datos fiables (registros gubernamentales, bancos centrales, portales) y crear hojas de datos para verificar su fiabilidad, formato y frecuencia de actualización.
Integración de pipelines: Escribir y mantener scripts Python eficientes para extraer datos sin procesar e integrarlos en nuestro pipeline ETL sin servidor existente.
Perfilado y calidad de datos: Analizar datos de muestra para comprender su estructura (comprobación de valores nulos, únicos y atípicos) y definir las reglas de negocio "limpias" para garantizar la calidad.
Estandarización: Implementar lógica de transformación utilizando Polars y DuckDB para estandarizar diversos conjuntos de datos (por ejemplo, conversión de monedas).
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Grande
Plazo de Entrega: No definido
Habilidades necesarias