Sobre este projeto
it-programming / web-development
Aberto
O objetivo principal é extrair informações específicas (descrição, link, preços e datas) de itens leiloados e salvar esses dados de forma organizada em arquivos JSON separados por site.
Objetivos do Projeto:
O projeto visa desenvolver um fluxo de trabalho robusto e eficiente no n8n capaz de:
Crawler - Navegar e identificar: Acessar dinamicamente diferentes sites de leilão e identificar as seções relevantes onde os leilões são listados.
Extrair dados seletivamente: Coletar com precisão os seguintes dados de cada item de leilão:
Descrição do item.
URL da página de detalhes do leilão.
Preços (atual, inicial, arremate, etc.).
Datas (início e término).
Adaptabilidade: Ser projetado para se adaptar a variações na estrutura HTML e layout dos sites, minimizando a necessidade de reconfiguração extensiva para novos sites.
Estruturar dados: Organizar os dados extraídos em arquivos JSON separados por site, com uma estrutura consistente para cada item de leilão (campos: "descricao", "link", "precos" com subcampos, "datas" com subcampos).
Escalabilidade e eficiência: Ser projetado para permitir a adição de novos sites e o processamento de um grande volume de dados de forma eficiente dentro das capacidades do n8n.
Entregáveis:
O profissional/equipe contratada deverá entregar os seguintes itens:
Fluxo de trabalho do n8n: Um fluxo de trabalho completo e funcional no n8n que implemente todas as funcionalidades descritas nos objetivos do projeto. O fluxo deve ser bem documentado com comentários e explicações claras de cada nó.
Configuração inicial: Instruções detalhadas sobre como configurar o n8n (se necessário) e o fluxo de trabalho para adicionar novos sites de leilão (via variáveis de ambiente, nó de configuração ou outro método definido).
Mecanismo de identificação de elementos: A lógica implementada no n8n (utilizando seletores CSS/XPath, funções JavaScript, etc.) Para identificar os elementos HTML relevantes nos diferentes sites.
Mecanismo de extração de dados: A lógica implementada no n8n para extrair os dados específicos (descrição, link, preços, datas) dos elementos identificados, incluindo o tratamento de diferentes formatos de preço e data.
Estrutura de dados JSON: A estrutura JSON final utilizada para armazenar os dados de cada item de leilão, demonstrando a organização dos campos "descricao", "categoria", "link", "precos" e "datas".
Mecanismo de salvamento de arquivos: A implementação no n8n para salvar os dados estruturados em arquivos JSON separados, nomeados de acordo com o site de origem.
Documentação técnica: Um documento detalhado descrevendo a arquitetura do fluxo de trabalho, a lógica de cada etapa, as configurações necessárias, como adicionar novos sites e quaisquer considerações ou limitações conhecidas.
Testes e validação: Evidência de testes realizados em um conjunto de sites de leilão fornecidos (a serem definidos), demonstrando a correta extração e estruturação dos dados.
Requisitos e Habilidades Necessárias:
O profissional/equipe contratada deverá possuir as seguintes habilidades e experiência:
Profundo conhecimento e experiência prática com a plataforma n8n: Criação, configuração e gerenciamento de fluxos de trabalho complexos no n8n, incluindo o uso de nós core e customizados (se necessário).
Sólida experiência em web scraping: Compreensão dos princípios de web scraping e experiência com ferramentas e técnicas para extrair dados de diferentes estruturas de sites (incluindo manipulação de HTML e tratamento de conteúdo dinâmico).
Proficiência em seletores CSS e XPath: Habilidade para identificar e utilizar seletores precisos para localizar elementos HTML específicos.
Experiência com JavaScript: Necessário para implementar lógica de extração, manipulação e estruturação de dados dentro dos nós de "Function" do n8n.
Conhecimento de estruturas de dados JSON: Compreensão de como estruturar dados em formato JSON para facilitar o processamento posterior.
Capacidade de adaptação e resolução de problemas: Habilidade para lidar com as variações nas estruturas dos sites e solucionar problemas de extração de dados de forma eficiente.
Boa comunicação e organização: Capacidade de comunicar de forma clara o progresso, desafios e soluções, além de entregar uma documentação técnica completa e organizada.
Experiência com Puppeteer ou outras ferramentas de automação de navegador (desejável): Para lidar com sites que utilizam carregamento dinâmico de conteúdo.
Conhecimento básico de versionamento de código (Git desejável): Para gerenciar e compartilhar o fluxo de trabalho do n8n de forma eficiente.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Alteração média
Isso é um projeto ou uma posição de trabalho? Um projeto
Tenho, atualmente Eu tenho uma ideia geral
Disponibilidade requerida Conforme necessário
Funções necessárias Desenvolvedor
Prazo de Entrega: Não estabelecido
Habilidades necessárias