Analisando propostas

Despliegue de 'arañas' de Scrapy en Scrapinghub

Publicado em 24 de Junho de 2020 dias na TI e Programação

Sobre este projeto

Aberto

El problema a solucionar, implica conocimientos en el framework Scrapy para Python (3.8), Selenium, el servicio de deployment y gestión de spiders de Scrapinghub, Docker, conocimiento básico en distribuciones de sistemas operatvos Ubuntu o Linux.

Objetivo:
Lograr correr una araña desarrollada con Scrapy(version 2.1.0) en el servicio de arañas que Scrapinghub provee para este objetivo.

Problema:
El problema consiste en que la araña no solo scrapea de manera nativa con Scrapy, si no que también emplea Selenium, para poder obtener información dinámica necesaria para la información a scrapear.
La araña está en modo headless, y de manera local funciona sin problemas con nuestro propio Geckodriver para Firefox, el problema es que cuando es desplegado en scrapinghub, a través de una imagen creada con el archivo Dockerfile que contiene todas las dependencias necesarias para que funcione correctamente, han estado saltando fallas por tiempo de conexión a la url a través del navegador al querer acceder a la url con Selenium.
Lo que se necesita es recibir un planteamiento de una posible solución, llevarla a cabo, y comprobar si esta solución es efectiva.


Este trabajo se realizará colaborativamente con el programador de la araña para orientar y explicar con más detalle cuales fueron los pasos que se siguieron para llegar a este punto.

Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Bug ou alteração pequena
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Funções necessárias Desenvolvedor, Analista de negócios

Prazo de Entrega: 01 de Julho de 2020

Habilidades necessárias