Sobre este projeto
it-programming / data-science-1
Aberto
O trabalho seria sobre fazer um resumo de texto atraves de NLP do conjunto de dados obtidos na internet. Teremos que fazer a parte de extração e abstração (creio que é assim em português). Na parte de extração, utilizaríamos a ferramenta tf e tf-idf para analisar a frequência das palavras e o resumo se realiza através de frases que já aparecem no texto.
Na parte de abstração, utilizaríamos a ferramenta ANN como métrica e o resumo se realiza através de novas frases. Para avaliação do modelo, utilizaríamos ROUNGE-N e ROUNGE-L para comparar.
Os conjuntos de dados que serão utilizados, estão na internet.
Eu necessito que seja feito o resumo em 4 idiomas para comparação. O primeiro seria em inglês e a bbdd é sobre noticias da cnn/daily mail disponível em tensor flow. As outras três também estão disponíveis em MLSUM, uma extensão de tensor flow e seria francês, espanhol e alemão.
Mas claro, aceito sugestões para possíveis mudanças em algumas coisas que você achar melhor.
Categoria TI e Programação
Subcategoria Data Science
Prazo de Entrega: Não estabelecido