Sobre este proyecto
it-programming / data-science-1
Abierto
Estate Atlas es una startup de datos como servicio (DaaS) con la misión de proporcionar información basada en datos sobre los mercados inmobiliarios globales. Nuestro objetivo es empoderar a inversores, analistas y profesionales con datos inmobiliarios precisos, transparentes y prácticos, construyendo la principal fuente mundial de datos inmobiliarios internacionales. Al agregar y estandarizar información de una amplia gama de fuentes globales, estamos haciendo que los mercados inmobiliarios sean más transparentes y accesibles. Ya hemos diseñado una infraestructura ETL de vanguardia sin servidor y ahora buscamos un desarrollador experto para impulsarla.
La oportunidad implica centrarse en la parte fundamental de nuestra estrategia de datos: localizar fuentes de datos internacionales de alto valor, verificar su precisión y escribir el código necesario para integrarlas en nuestro ecosistema. El profesional seleccionado será responsable de expandir nuestra cobertura a más de 15 países, garantizando que los datos sin procesar de diversas fuentes globales se extraigan, limpien y carguen correctamente en nuestro lago de datos.
Las responsabilidades diarias incluyen:
Exploración y verificación de fuentes: Investigar y localizar activamente fuentes de datos fiables (registros gubernamentales, bancos centrales, portales, etc.) Y crear hojas de datos para verificar su fiabilidad, formato y frecuencia de actualización. Se proporcionará acceso al sitio web que contiene todas las fuentes.
Integración de pipelines: Escribir y mantener scripts Python eficientes para extraer datos sin procesar e integrarlos en nuestro pipeline ETL sin servidor existente.
Perfilado y calidad de datos: Analizar datos de muestra para comprender su estructura (comprobación de valores nulos, únicos y atípicos) y definir las reglas de negocio "limpias" para garantizar la calidad.
Estandarización: Implementar lógica de transformación utilizando herramientas como Polars y DuckDB para estandarizar diversos conjuntos de datos (por ejemplo, conversión de monedas).
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Grande
Duración del proyecto No definido
Habilidades necesarias