Status: Evaluating bids

Sistema Web Scraping

Project details:
Budget: Open
Published: 27 days ago
Deadline: Not defined
Bids: 5
Interested freelancers: 12
Days until project expiration: 3 days
Description:
Se necesita un sistema que realice web scraping a sitios web para investigación de mercados.

El sistema deberá hacer esta labor en varios sitios de internet al mismo tiempo. Por cada nuevo sitio se customizará; el tiempo que estará rastreando el sitio (fechas, días o indeterminadamente), las palabras a excluir y cadenas que se busquen.

Toda información recabada se almacenará en una base de datos, para después obtener estadísticas (por día, palabras y/o cadenas más repetidas y numero de páginas) y aplicar filtros de búsqueda.

La labor del sistema es iniciar en el index del sitio y de ahí rastrear todas la páginas linkeadas, hacerlo continuamente para verificar cuando el sitio indexe páginas nuevas.

Por cada página rastreada guardar la url, la fecha cuando se indexó y todo el texto y separar por palabras y/o cadenas. Habrá que tener un listado de pronombres, conjunciones y preposiciones para no tomarlos en cuenta.

Se piensa que el desarrollo sea en PHP y MySQL, se proporcionará un VPS para el desarrollo e implementación. Todo debe quedar documentado para futuras versiones.

Categoría: IT & Programación
Subcategoría: Programación Web
¿Cuál es el alcance del proyecto?: Cambio mediano
Es un proyecto o una posición?: Un proyecto
Actualmente tengo: Tengo una idea
Experiencia en este tipo de proyectos: No (No he administrado este tipo de proyectos anteriormente)
Disponibilidad requerida: Según se necesite
Roles necesarios: Desarrollador
Do you need more information about this project?

Create your own project

Are you looking for a freelancer to work on a similar project? Create your own project and you'll receive proposals from the best freelancers.

Create a similar project

Client:

Edgardo M.
(Rating 0.00 out of 5)
Location: Mexico
To find out more about this client, login to Workana.
Loading...