Sobre este projeto
it-programming / data-science-1
Aberto
Contexto Geral do Projeto
Criação de banco vetorial na plataforma Qdrant para 150 manuais de ar condicionado de várias marcas e modelos com preparação e configuração capaz de extrair partes dos manuais contextualizadas para rag. O trabalho não é a cração da RAG completa, mas apenas da implementação e recuperação dos dados do quadrante. O trabalho envolve: 1. Conversão e Extração de Texto; Usando ferramentas automáticas como PyMuPDF, pdfminer ou python-docx 2. Limpeza e Normalização de Texto; A limpeza de texto envolve remover cabeçalhos, rodapés, números de página, e formatação irrelevante. 3. Geração de Embeddings; Usando modelos como Sentence-BERT ou distilBERT, cada manual precisa ser processado por partes ou seções (como parágrafos ou capítulos). 4. Segmentação do Texto; Com base em seções ou parágrafos e ajuste de metadados (como título da seção, número da página, tipo de equipamento, etc.). 5. Armazenamento no Qdrant e Testes de Desempenho Indexação no Qdrant e realização de testes de desempenho (busca e ajustes de índice). A indexação envolve a inserção dos embeddings e metadados no Qdrant.
Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário
Prazo de Entrega: 18 de Maio de 2025
Habilidades necessárias