Sobre este proyecto
it-programming / web-development
Abierto
Se busca un desarrollador experto para crear una solución robusta de web scraping. El objetivo principal es automatizar la extracción de información de un portal web específico que no dispone de una API pública. La solución debe ser capaz de manejar un alto volumen de datos, estimado en millones de registros, e incluir una configuración avanzada para la gestión de proxies.
Las responsabilidades clave del proyecto incluyen:
* Navegación y extracción de datos: Desarrollar un sistema para navegar eficientemente por diversas secciones del portal web y extraer datos relevantes, incluso si la estructura del sitio presenta cambios menores.
* Procesamiento y estructuración de la información: Implementar lógica para limpiar, procesar y estructurar la información extraída, asegurando la coherencia y la calidad de los datos.
* Gestión de proxies: Analizar y configurar una estrategia de proxies para manejar la alta volumetría de extracción (millones de registros) y evitar bloqueos o restricciones por parte del portal.
* Manejo de autenticación: Se valorará la experiencia en el desarrollo de soluciones de scraping para sitios que requieren autenticación de usuario.
* Exportación de datos: Exportar los datos procesados a un archivo CSV, adhiriéndose a un formato predefinido y específico.
* Robustez y manejo de errores: La solución debe ser robusta, con mecanismos de manejo de errores integrados para garantizar la fiabilidad y la continuidad de la extracción.
El candidato ideal deberá demostrar experiencia comprobada en web scraping a gran escala, conocimiento profundo de técnicas de evasión de bloqueos y una fuerte capacidad para entregar un producto final eficiente, mantenible y fácil de usar.
Categoría Programación y Tecnología
Subcategoría Programación Web
¿Cuál es el alcance del proyecto? Cambio mediano
Plazo de Entrega: No definido
Habilidades necesarias