Se requiere contratar un desarrollador experto en Python para construir un web scraper robusto y eficiente. El objetivo principal es extraer información detallada del directorio de empresas disponible en el sitio web
www.informacolombia.com/directorio-empresas. El script debe ser capaz de navegar y extraer datos de manera autónoma, manejando las complejidades del sitio y las medidas anti-bot.
Funcionalidades clave del script:
- Recorrido exhaustivo: El scraper deberá recorrer todas las URLs del directorio, organizadas por código CIIU y por ciudad/localidad, cubriendo todo el territorio nacional colombiano.
- Extracción de datos: De cada registro de empresa, se debe extraer el nombre de la empresa y su número de teléfono.
- Filtrado inteligente: Se requiere un filtro automático para identificar y seleccionar únicamente los números de teléfono celular colombianos, que son aquellos que inician con el dígito '3'.
- Manejo de anti-bots: El script debe incorporar mecanismos para evitar bloqueos, como el uso de proxies rotativos y la implementación de delays aleatorios entre las peticiones HTTP.
- Exportación de resultados: El resultado final de la extracción y filtrado debe ser exportado a un archivo Excel (.xlsx) limpio, estructurado y ordenado.
Entregables esperados:
1. Script Python funcional y completamente documentado, que permita su ejecución y mantenimiento futuro por parte del cliente.
2. Archivo Excel (.xlsx) con un mínimo de 150.000 registros de números celulares válidos y filtrados a nivel nacional.
Condiciones de pago:
- Un 50% del presupuesto acordado se abonará al inicio del proyecto.
- El 50% restante se pagará contra entrega, una vez se verifique que el archivo Excel contenga al menos 1.000 registros correctos como prueba de la funcionalidad y eficacia del script.
Plazo de entrega:
El proyecto deberá ser completado en un plazo máximo de 5 días hábiles desde el inicio.
Plazo de Entrega: No definido