Evaluando propuestas

Google Cloud Dataflow Pipeline

Publicado el 03 Abril, 2021 en Programación y Tecnología

Sobre este proyecto

Abierto

I have a very specific requirement of reading some hundreds of millions of plain text files from a GCS bucket into Cloud PubSub using Cloud Dataflow. I need the whole contents of the file to be in a single message.

Also, the pubsub message should also contain the complete path of the GCS Object and the "created time" of the GCS Object. The PubSub produced message format should be similar to this:

{
"gcsCreatedTime": "Apr 1, 2021, 12:34:21 PM",
"gcsPath": "gs://bucketName/xxx/yyy/zzz/file.xml",
"fileStringContent": "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
}

Whatever solution provided can be in java or python. It doesn't matter, as long as it works.


Also, streaming is preferred but it can be batch.

Categoría Programación y Tecnología
Subcategoría Otros
Tamaño del proyecto Pequeño
¿Es un proyecto o una posición? Un proyecto
Actualmente tengo Tengo las especificaciones
Disponibilidad requerida Según se necesite
Integraciones de API Otros (Otras APIs)

Plazo de Entrega: No definido

Habilidades necesarias

Otros proyectos publicados por O. C. F. J.