Evaluando propuestas

Criação de um pipeline de médio porte (150m linhas) e processamento

Publicado el 20 Septiembre, 2022 en Programación y Tecnología

Sobre este proyecto

Abierto

Preciso de um desenvolver com conhecimentos em Python e toolset de operações de dados distribuidas Pandas/Ray/PySpark/Airflow/nifi e/ou similares para desenvolver um etl que receberá uma massa de dados , realizará uma série de processamentos simples como acumular valores, percentual referente a uma categoria na tabela percentual de um valor referente aos demais e afins, são feitos algumas junções com outras tabelas provenientes de um banco sql server e ao final será gerado um arquivo parquet.

Contexto general del proyecto

O Fluxo hoje já existe e foi construido utilizando a ferramenta de pipeline Azure Data Factory, porem por limitações da ferramenta precisamos migrar a tecnologia para algo mais flexivel em termos de desenvolvimento para que o projeto possa continuar evoluindo.

Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Pequeño
¿Es un proyecto o una posición? Un proyecto
Disponibilidad requerida Según se necesite

Plazo de Entrega: No definido

Habilidades necesarias