Sobre este projeto
it-programming / web-development
Aberto
O objetivo deste projeto é desenvolver uma ferramenta de web scraping robusta e eficiente para coletar aproximadamente 5.000 matérias jornalísticas do site da Folha de São Paulo. Os dados coletados serão utilizados para uma pesquisa acadêmica sobre um tema específico. O freelancer será responsável por criar um script que navegue pelo site, identifique e extraia o conteúdo relevante das matérias, incluindo título, data de publicação, autor (se disponível), corpo do texto, comentários dos leitores nos casos em que isto acontece e respectiva/s URL/s. É Fundamental que a solução seja capaz de lidar com a estrutura do site e quaisquer mecanismos anti-scraping que possam estar em vigor. O resultado final esperado é um conjunto de dados estruturado, preferencialmente em Word, com a íntegra dos artigos. O banco de dados do jornal é de acesso restrito, mas sou assinante do mesmo.
Categoria TI e Programação
Subcategoria Programação
Qual é o alcance do projeto? Criar um novo site personalizado
Duração do projeto Não estabelecido
Habilidades necessárias