Evaluating bids

Sistema Web Scraping

Published on the September 01, 2016 in IT & Programming

About this project

Open

Se necesita un sistema que realice web scraping a sitios web para investigación de mercados.

El sistema deberá hacer esta labor en varios sitios de internet al mismo tiempo. Por cada nuevo sitio se customizará; el tiempo que estará rastreando el sitio (fechas, días o indeterminadamente), las palabras a excluir y cadenas que se busquen.

Toda información recabada se almacenará en una base de datos, para después obtener estadísticas (por día, palabras y/o cadenas más repetidas y numero de páginas) y aplicar filtros de búsqueda.

La labor del sistema es iniciar en el index del sitio y de ahí rastrear todas la páginas linkeadas, hacerlo continuamente para verificar cuando el sitio indexe páginas nuevas.

Por cada página rastreada guardar la url, la fecha cuando se indexó y todo el texto y separar por palabras y/o cadenas. Habrá que tener un listado de pronombres, conjunciones y preposiciones para no tomarlos en cuenta.

Se piensa que el desarrollo sea en PHP y MySQL, se proporcionará un VPS para el desarrollo e implementación. Todo debe quedar documentado para futuras versiones.

Category IT & Programming
Subcategory Web development
What is the scope of the project? Medium-sized change
Is this a project or a position? Project
I currently have I have an idea
Required availability As needed
Experience in this type of projects No (I haven’t managed this kind of project before)
Roles needed Developer

Delivery term: Not specified

Skills needed