Sobre este projeto
it-programming / web-development
Aberto
Se busca un desarrollador experto para crear una solución robusta de web scraping. El objetivo principal es automatizar la extracción de información de un portal web específico que no dispone de una API pública. La solución debe ser capaz de manejar un alto volumen de datos, estimado en millones de registros, e incluir una configuración avanzada para la gestión de proxies.
Las responsabilidades clave del proyecto incluyen:
* Navegación y extracción de datos: Desarrollar un sistema para navegar eficientemente por diversas secciones del portal web y extraer datos relevantes, incluso si la estructura del sitio presenta cambios menores.
* Procesamiento y estructuración de la información: Implementar lógica para limpiar, procesar y estructurar la información extraída, asegurando la coherencia y la calidad de los datos.
* Gestión de proxies: Analizar y configurar una estrategia de proxies para manejar la alta volumetría de extracción (millones de registros) y evitar bloqueos o restricciones por parte del portal.
* Manejo de autenticación: Se valorará la experiencia en el desarrollo de soluciones de scraping para sitios que requieren autenticación de usuario.
* Exportación de datos: Exportar los datos procesados a un archivo CSV, adhiriéndose a un formato predefinido y específico.
* Robustez y manejo de errores: La solución debe ser robusta, con mecanismos de manejo de errores integrados para garantizar la fiabilidad y la continuidad de la extracción.
El candidato ideal deberá demostrar experiencia comprobada en web scraping a gran escala, conocimiento profundo de técnicas de evasión de bloqueos y una fuerte capacidad para entregar un producto final eficiente, mantenible y fácil de usar.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média
Prazo de Entrega: Não estabelecido
Habilidades necessárias