1. Resumen y Alcance Actual del Proyecto
Buscamos un Senior Data Engineer o una Micro-Agencia especializada en Datos (ubicados en América Latina) para el desarrollo de una plataforma propietaria de Social Listening e Inteligencia Política.
IMPORTANTE: El proyecto completo consta de 4 fases, pero en esta publicación estamos contratando exclusivamente el módulo 1 (mvp: core operativo y human-in-the-loop).
Presupuesto Estimado: ~$8,500 USD.
Tiempo de Entrega: Flexible. Preferimos calidad absoluta, arquitectura a prueba de balas y pruebas de estrés exhaustivas antes que velocidad.
2. Stack Tecnológico Obligatorio
Backend y Orquestación: Python 3.10+ (Asíncrono).
Extracción: Apify API (Manejo avanzado de Actors y proxies residenciales para X, Meta, TikTok y Web).
Infraestructura Serverless: Google Cloud Platform (Cloud Run/Functions, BigQuery, Cloud Scheduler, Secret Manager).
Cerebro AI: Openai api (gpt-4o-mini o superior / batch api) o anthropic forzando structured outputs (json mode).
Interfaz de Validación (HITL): Streamlit, Retool,
Next.js o similar (Web App interna y segura).
BI: Looker Studio conectado nativamente a BigQuery.
3. Requerimientos del MÓDULO 1
A. Ingesta y Traducción Booleana
Interfaz para introducir una consulta booleana maestra compleja.
El backend debe traducir automáticamente esta consulta a los parámetros sintácticos específicos requeridos por cada red social en Apify.
B. Pipeline de Procesamiento e IA (Análisis de Narrativas)
Extracción y limpieza (deduplicación semántica y de IDs).
Procesamiento masivo por LLM para clasificar cada mención extrayendo:
Sentimiento (Positivo, Negativo, Neutral).
Línea de Comunicación / Mensaje Clave.
Narrativa (Categorización en un catálogo temático administrable).
El backend debe calcular el Volumen y Porcentaje de repetición de estos mensajes/narrativas.
C. Interfaz Web de Cuarentena (Human-in-the-Loop - HITL)
Consola interna segura donde nuestro equipo de analistas revisará los datos extraídos antes de mandarlos al reporte final.
Debe permitir:
Validación y edición rápida (batch-edit) de Sentimiento y Narrativas asignadas por la IA.
Visualización y aprobación de la Nube de Palabras (limpia de stop words).
Visualización y validación del ranking de Principales Impulsores de Conversación (Influencers) basado en volumen y alcance.
Botón de "Aprobar Lote" para enviar los datos curados a BigQuery.
4. Módulos Futuros (Contexto de escalabilidad)
Módulo 2: Automatización de presentaciones en Google Slides.
Módulo 3: Detección heurística de Astroturfing (Bots) y Clustering de Tribus Digitales.
Módulo 4: Simulador RAG / Diseñador de escenarios predictivos.
5. Criterios de Seguridad y Propiedad Intelectual (No Negociables)
Work for Hire: El 100% del código fuente, propiedad intelectual y arquitectura deben pertenecer a nuestra Agencia.
Cuentas Propias: El desarrollo deberá realizarse directamente en cuentas de GCP, GitHub y Apify creadas por el desarrollador, pero exclusivamente propiedad de la Agencia. Prohibido el uso de cuentas personales del desarrollador para alojar el proyecto.
Manejo de Rate Limits y Bloqueos: Se exige lógica asíncrona, Exponential Backoff, procesamiento por lotes (Batch API) y uso correcto de Proxies Residenciales en Apify para evitar bloqueos por scraping masivo.
Seguridad: Uso de GCP Secret Manager. Ninguna API Key debe estar hardcodeada en el repositorio.
Plazo de Entrega: No definido