Evaluating bids

Despliegue de 'arañas' de Scrapy en Scrapinghub

Published on the June 24, 2020 in IT & Programming

About this project

Open

El problema a solucionar, implica conocimientos en el framework Scrapy para Python (3.8), Selenium, el servicio de deployment y gestión de spiders de Scrapinghub, Docker, conocimiento básico en distribuciones de sistemas operatvos Ubuntu o Linux.

Objetivo:
Lograr correr una araña desarrollada con Scrapy(version 2.1.0) en el servicio de arañas que Scrapinghub provee para este objetivo.

Problema:
El problema consiste en que la araña no solo scrapea de manera nativa con Scrapy, si no que también emplea Selenium, para poder obtener información dinámica necesaria para la información a scrapear.
La araña está en modo headless, y de manera local funciona sin problemas con nuestro propio Geckodriver para Firefox, el problema es que cuando es desplegado en scrapinghub, a través de una imagen creada con el archivo Dockerfile que contiene todas las dependencias necesarias para que funcione correctamente, han estado saltando fallas por tiempo de conexión a la url a través del navegador al querer acceder a la url con Selenium.
Lo que se necesita es recibir un planteamiento de una posible solución, llevarla a cabo, y comprobar si esta solución es efectiva.


Este trabajo se realizará colaborativamente con el programador de la araña para orientar y explicar con más detalle cuales fueron los pasos que se siguieron para llegar a este punto.

Category IT & Programming
Subcategory Web development
What is the scope of the project? Small change or bug
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed
Roles needed Developer, Business analyst

Delivery term: July 01, 2020

Skills needed