Sobre este projeto
it-programming / artificial-intelligence-1
Aberto
Estamos buscando um desenvolvedor experiente para criar um pipeline robusto e reutilizável focado na análise temática de letras de música. O objetivo é processar um grande volume de letras, gerar representações semânticas e permitir a busca e agregação de conteúdo com base em temas definidos pelo usuário. O sistema deve ser eficiente e escalável para futuras análises.
As principais funcionalidades a serem desenvolvidas incluem:
Indexação e Geração de Embeddings:
Realizar a limpeza básica das letras de música, como remoção de caracteres especiais e padronização.
Dividir as letras em trechos significativos para análise.
Gerar embeddings semânticos para cada trecho, utilizando modelos que capturem o significado contextual das palavras e frases.
Armazenar os embeddings de forma eficiente em um banco de dados ou estrutura de dados otimizada para reuso em análises futuras.
Análise Temática e Exportação de Resultados:
Quando um tema em texto for fornecido pelo usuário (ex: 'brasilidade', 'crítica política'), o sistema deve gerar o embedding correspondente para este tema.
Realizar uma busca de similaridade (por exemplo, similaridade de cosseno) para identificar os trechos de letras mais semanticamente próximos ao tema fornecido.
Agregar os resultados por música, fornecendo uma visão consolidada dos temas presentes em cada canção.
Exportar os resultados para um arquivo CSV, incluindo os trechos identificados, os títulos das músicas e os scores de similaridade.
O sistema deve permitir a configuração de parâmetros como o número de resultados (top-K) a serem retornados ou um limiar de similaridade para filtrar os resultados.
Reutilização:
O pipeline deve ser projetado com modularidade e clareza, permitindo que o cliente repita o processo de análise para diferentes temas com mínima configuração e esforço.
Buscamos um profissional com forte conhecimento em processamento de linguagem natural, machine learning e desenvolvimento de software para entregar uma solução de alta qualidade e fácil manutenção.
Categoria TI e Programação
Subcategoria Inteligência Artificial
Tamanho do projeto Grande
Prazo de Entrega: Não estabelecido
Habilidades necessárias