Evaluando propuestas

Desarrollo de Web Scraper Avanzado en Python para Directorio de Empresas Colombianas

Publicado el 18 Mayo, 2026 en Programación y Tecnología

Sobre este proyecto

Abierto

Se requiere contratar un desarrollador experto en Python para construir un web scraper robusto y eficiente. El objetivo principal es extraer información detallada del directorio de empresas disponible en el sitio web www.informacolombia.com/directorio-empresas. El script debe ser capaz de navegar y extraer datos de manera autónoma, manejando las complejidades del sitio y las medidas anti-bot.

Funcionalidades clave del script:
- Recorrido exhaustivo: El scraper deberá recorrer todas las URLs del directorio, organizadas por código CIIU y por ciudad/localidad, cubriendo todo el territorio nacional colombiano.
- Extracción de datos: De cada registro de empresa, se debe extraer el nombre de la empresa y su número de teléfono.
- Filtrado inteligente: Se requiere un filtro automático para identificar y seleccionar únicamente los números de teléfono celular colombianos, que son aquellos que inician con el dígito '3'.
- Manejo de anti-bots: El script debe incorporar mecanismos para evitar bloqueos, como el uso de proxies rotativos y la implementación de delays aleatorios entre las peticiones HTTP.
- Exportación de resultados: El resultado final de la extracción y filtrado debe ser exportado a un archivo Excel (.xlsx) limpio, estructurado y ordenado.

Entregables esperados:
1. Script Python funcional y completamente documentado, que permita su ejecución y mantenimiento futuro por parte del cliente.
2. Archivo Excel (.xlsx) con un mínimo de 150.000 registros de números celulares válidos y filtrados a nivel nacional.

Condiciones de pago:
- Un 50% del presupuesto acordado se abonará al inicio del proyecto.
- El 50% restante se pagará contra entrega, una vez se verifique que el archivo Excel contenga al menos 1.000 registros correctos como prueba de la funcionalidad y eficacia del script.

Plazo de entrega:
El proyecto deberá ser completado en un plazo máximo de 5 días hábiles desde el inicio.

Categoría Programación y Tecnología
Subcategoría Programación Web
¿Cuál es el alcance del proyecto? Crear un nuevo sitio personalizado

Plazo de Entrega: No definido

Habilidades necesarias

Otros proyectos publicados por A. R.