Sobre este proyecto
it-programming / data-science-1
Abierto
Objetivo:
Aplicar aprendizado de máquina;
Temos dois projetos de dados, o NewsCloud e o Hemeroteca Política Externa Brasileira (HPEB), que são bases de dados que reúnem notícias de jornais. A HPEB é uma seleção de quase 30 mil notícias feita manualmente por um professor até o ano de 2010. Nosso objetivo é aplicar o aprendizado de máquina para construir um algoritmo que continue a seleção a partir de 2011 com base na seleção feita pelo professor;
Enquanto a base de dados do projeto HPEB é uma seleção restrita de notícias e servirá como base do aprendizado de máquina pretendido, a base de dados do projeto NewsCloud, contém notícias integrais dos principais jornais brasileiros, será a fonte para a seleção de notícias posteriores a 2011 (esta base também pode fornecer dados anteriores a esta data);
Os dados do NewsCloud estão armazenados em arquivos JSON;
Os metadados da HPEB estão em arquivos JSON e as notícias em PDFs pesquisáveis
## Sugestões de Bibliotecas:
Avaliar a Otimização do OCR (Layout Parser)
Aprendizado de máquina (scikit-learn, pycaret)
Categoría Programación y Tecnología
Subcategoría Data Science
Tamaño del proyecto Medio
¿Es un proyecto o una posición? Un proyecto
Disponibilidad requerida Según se necesite
Plazo de Entrega: 27 Enero, 2023
Habilidades necesarias