Completed

Scraping de sitio web

Published on the August 16, 2020 in IT & Programming

About this project

Open

Se trata de un proyecto de scraping de sitio web.

Las caracteristicas generales del proyecto son:
- Alrededor de 2900 fichas de información a scrapear.
- La página de inicio del sitio web a scrapear presenta el listado completo y los links se generan por js y ajax.
- Dentro de cada ficha, existen solapas, que presentan nuevos datos.

- La ficha de información se genera de manera dinámica, presentando algunos datos en algunas fichas y otros en otras. Es decir, no es siempre igual.
- En algunas fichas, existe un botón de "ver más" que presenta algo más de información que también debe registrarse.

- También debe guardarse la url de la imagen/es que se presenten en las fichas. En general es una imagen por ficha, y solo en algunos casos.
- También la ficha presenta un mapa y deberá registrarse la longitud y latitud.


Es decir que el algoritmo de scraping tiene ciertos elementos de complejidad que requieren 1) generar una estructura de datos completa a partir de relevar una buena cantidad de fichas, 2) correr el scrap, 3) testear.

Finalmente, para la concreción del trabajo, desde el contratante se hará una evaluación para revisar si todos los datos que tiene una ficha determinada están incluídos en la base de datos a entregar. La base de datos a entregar puede ser en excel en un formato a estipular con ciertas características. Una manera de llevar adelante el trabajo es hacer una extracción de un 5% de las filas para ser validada por el contratante previo a la entrega final (para revisar que todos los datos hayan sido registrados.


Solicitar por mensaje la dirección del sitio para presupuestar el trabajo.
Indicar tiempo de entrega aproximado y experiencia en scraping para la selección de propuestas.

Gracias!

Project overview

Scrap de información pública para integrar a nuestro sitio.

Category IT & Programming
Subcategory Web development
What is the scope of the project? Medium-sized change
Is this a project or a position? Project
I currently have I have specifications
Required availability As needed
Roles needed Developer

Delivery term: August 21, 2020

Skills needed