Sobre este projeto
it-programming / others-5
Aberto
Nuestra empresa tiene un sitio web desarrollado en Google Sites la cual requerimos que se pueda hacer web scrap de la web para poder capturar los links (mayormente links de Drive y YouTube) y almacenar estos links en una base de datos o un archivo json.
Requerimientos del proyecto:
- La web está desarrollada en Google Site y pertenece a nuestro dominio de Google Workspace
- La web es parcialmente "fija" pero ciertas partes visuales así como el contenido (artículos y links) pueden variar.
- Los elementos a capturar siguen todos un mismo patrón-estructura (ver adjuntos) lo que podría ayudar a implementar la lógica de barrido
- La web tiene Login con Google y es accesible únicamente para usuarios de nuestro dominio de Google Workspace
- Si el usuario ya está autenticado, puede acceder a la web; si no está autenticado, se le pide login con Google nativo de Google
- Se podría crear un usuario con correo dentro de nuestro dominio para el scraper si fuera necesario hacerlo
- El scraper debe capturar todos los links con sus respectivos textos y almacenarlos en una base de datos o json (recomendar y elegir cualquiera pero que garantice mayor velocidad de recuperación de información ya que luego implementaremos una API para recuperar la data)
- El scraper deberá ejecutarse automáticamente 1 vez al día todas las noches sin intervención humana para actualizar la información almacenada en la base de datos
- Se deberá poder cambiar configurar la frecuencia del scraper
- Se deberá tomar en cuenta los bloqueos del scraper para evitar que éste sea bloqueado (presentar propuestas e indicar probabilidad/garantía de que la técnica usada para evitar el bloqueo funcione sin tener que recurrir a mantenimientos/parches frecuentes, o de requerir mantenimiento, cuál sería el costo asociado a estos)
- Se puede usar VM o cualquier otro para hostear el scraper (tenemos Google Cloud Platform)
Opcional deseable:
Sería un plus poder desarrollar una api para exponer un servicio que reciba un string de entrada y devuelva la lista de resultados de la bd antes mencionada ya que queremos conectaremos esta api a un componente web para elaborar una barra de búsqueda embebida al google site (deseable, si el consultor solo sabe web scraping no hay problema, porque podemos delegar esto a otro desarrollador web).
Categoria TI e Programação
Subcategoria Outros
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho especificações
Disponibilidade requerida Conforme necessário
Prazo de Entrega: Não estabelecido
Habilidades necessárias