Esperando garantia de pago

Mineração e normalização de dados

Publicado el 21 Junio, 2023 en Programación y Tecnología

Sobre este proyecto

Abierto

Projeto para Lucas Andrade:
Escopo genérico de mineração e normalização de dados para um site de Freelancer:

1. Definição do objetivo:
  - Identificar e coletar informações relevantes de diferentes sites da internet relacionados a trabalhos freelancers.
  - Normalizar e organizar esses dados para facilitar a busca e comparação de projetos pelos usuários do site.

2. Seleção dos sites:
  - Identificar uma lista de sites populares e relevantes para freelancers, como plataformas de freelancing, fóruns, redes sociais profissionais, blogs e grupos de discussão.
  - Analisar a estrutura dos sites selecionados para entender como os dados são apresentados e como podem ser coletados.

3. Definição dos dados a serem coletados:
  - Identificar os tipos de dados relevantes para os freelancers, como título do projeto, descrição, categoria, orçamento, habilidades requeridas, prazo, localização (se aplicável), entre outros.
  - Determinar os dados adicionais a serem coletados, como nome do cliente, avaliações, número de propostas recebidas, entre outros, dependendo da disponibilidade nos sites.

4. Desenvolvimento de um web crawler:
  - Criar um programa automatizado (web crawler) para visitar os sites selecionados, percorrer as páginas relevantes e extrair os dados identificados.
  - Utilizar técnicas de web scraping para extrair os dados de forma estruturada a partir do HTML das páginas.

5. Processamento e normalização dos dados:
  - Limpar e normalizar os dados coletados, removendo informações irrelevantes ou duplicadas, corrigindo erros tipográficos e padronizando formatos.
  - Utilizar técnicas de processamento de linguagem natural (NLP) para extrair palavras-chave, categorizar os projetos e identificar informações relevantes nas descrições.

6. Armazenamento dos dados:
  - Armazenar os dados coletados em um banco de dados, utilizando um modelo adequado para a estrutura dos dados normalizados.
  - Garantir a integridade e segurança dos dados, implementando medidas adequadas de proteção.

7. Atualização recorrente dos dados:
  - Agendar a execução periódica do web crawler para visitar novamente os sites e atualizar os dados armazenados.
  - Utilizar técnicas de comparação para identificar novos projetos, projetos modificados ou removidos desde a última coleta.

8. Interface de busca e exibição de dados:
  - Desenvolver uma interface amigável para que os usuários do site de Freelancer possam buscar e visualizar os projetos normalizados.
  - Implementar recursos de filtragem, ordenação e categorização para facilitar a navegação e a comparação dos projetos.

Categoría Programación y Tecnología
Subcategoría Data Science
¿Es un proyecto o una posición? Un proyecto
Disponibilidad requerida A tiempo parcial

Duración del proyecto Más de 6 meses

Habilidades necesarias

Otros proyectos publicados por M. F.