Projeto banco de dados dissertacao - Procura-se Freelancer

Sobre este projeto

Aberto

Título da Dissertação: "Guerra em Foco: O Conflito Rússia-Ucrânia sob as Lentes de Editoriais pelo Mundo".
Objetivo: Analisar comparativamente a cobertura da guerra entre Rússia e Ucrânia nos editoriais de três veículos de comunicação globais (The New York Times, Folha de S.Paulo e Al Jazeera) para compreender a diversidade nas abordagens midiáticas, o alinhamento da perspectiva brasileira e como os veículos influenciam a percepção pública.
Metodologia Base: A dissertação emprega uma abordagem mista, combinando elementos de pesquisa qualitativa e quantitativa. As técnicas principais são análise de sentimento e Análise de Enquadramento (Framing Analysis).
2. Corpus e Período de Análise:
Corpus: Editoriais dos jornais The New York Times, Folha de S.Paulo e Al Jazeera.
Período: Primeiro ano do conflito Rússia-Ucrânia, de 24 de fevereiro de 2022 a 24 de fevereiro de 2023.
Volume de Dados (aproximadamente):
Al Jazeera: +100 editoriais
Folha de S.Paulo: 84 editoriais
The New York Times: 52 editoriais
Pré-processamento:
Coleta e Extração: extração dos textos dos editoriais, garantindo a integra do conteúdo textual e metadados essenciais (título, data de publicação, veículo).
Limpeza e Normalização: Pré-processamento dos textos para prepará-los para as análises de PLN.
Formato de Saída: Textos limpos e prontos para modelagem, formato de lista de strings ou DataFrame com uma coluna para o texto limpo e colunas para os metadados.
3. Entregáveis de Análise de PLN:
3.1. Modelagem de Tópicos como tipo de agrupamento(Topic Modelling):
Modelos a serem aplicados: Gostaríamos que fossem testados e aplicados, de forma complementar, LDA (Latent Dirichlet Allocation) e BERTopic, este último por sua capacidade de gerar tópicos mais coerentes e semânticos a partir de embeddings.
Entregáveis esperados (para cada jornal e/ou para o corpus agregado):
Lista de Tópicos Identificados: Para cada tópico, as N palavras-chave mais representativas e uma breve descrição (se possível, uma "etiqueta" para o tópico, que eu possa refinar posteriormente).
Distribuição Tópico-Documento: Uma matriz ou DataFrame indicando a probabilidade/peso de cada tópico em cada editorial (qual tópico é mais dominante em cada texto).
Distribuição de Tópicos por Veículo: Gráficos mostrando a prevalência e a proporção de cada tópico nos editoriais de cada jornal (The New York Times vs. Folha de S.Paulo vs. Al Jazeera).
Evolução Temporal dos Tópicos: Gráficos mostrando como a frequência e a importância dos tópicos mudam ao longo dos 90 dias de cobertura.
Visualizações: Mapas de tópicos (ex: UMAP para BERTopic), nuvens de palavras por tópico, gráficos de distribuição para facilitar a interpretação.
Exemplos de Tópicos esperados (do artigo): "economia", "opinião pública", "segurança e defesa", "regulações externas", "avaliação de políticas", "saúde e segurança".

3.2. Reconhecimento de Entidades Nomeadas (Named Entity Recognition - NER):

Modelo a ser aplicado: Sugere-se o uso de roBERTa para NER.
Entregáveis esperados:
Lista de Entidades Extraídas: Para cada editorial, uma lista das entidades identificadas, categorizadas por tipo (e.g., Person, org, loc).
Frequência de Entidades: Contagens de menções de entidades específicas (ex: "Volodymyr Zelensky", "Vladimir Putin", "OTAN", "Donbas") por jornal e ao longo do tempo.

3.3. Análise de Sentimento (Sentiment Analysis):

Modelo a ser aplicado: O artigo menciona distilBERT para análise de sentimento.
Entregáveis esperados:
Pontuação de Sentimento: Para cada editorial, uma pontuação ou rótulo de sentimento (ex: polaridade e subjetividade).
Sentimento por Veículo: Comparação do sentimento médio ou da distribuição de sentimentos entre os três jornais.
Sentimento Associado a Entidades/Tópicos: Se viável, o sentimento dos trechos de texto onde certas entidades são mencionadas ou onde tópicos específicos são predominantes.

3.4. Suporte para Linguística de Corpus (LancsBox X):
Ferramenta de Referência: LancsBox X.
Entregáveis esperados:
Corpus Formatado: O corpus textual (já pré-processado) deve ser entregue em um formato adequado para importação no LancsBox X, permitindo a realização de análises como Key-Word-In-Context (KWIC), colocations, listas de frequência.
4. Formato de Entrega:
Dados: Os resultados das análises (listas de tópicos, distribuições, entidades, sentimentos) devem ser entregues em formatos estruturados e de fácil manuseio, como arquivos CSV ou DataFrames Pandas.
Código: O código-fonte (preferencialmente em Python) deve ser entregue em formato replicável, para que possam entender o processo e, se necessário, reproduzi-lo.
Documentação: Uma breve documentação técnica explicando as escolhas dos modelos, os parâmetros utilizados e quaisquer observações relevantes sobre os dados ou os resultados iniciais.
Colaboração: Sessões de alinhamento e discussão, se possível, para me auxiliar na interpretação final dos dados, especialmente para a análise de enquadramento.

Categoria TI e Programação
Subcategoria Data Science
Tamanho do projeto Pequeño
Isso é um projeto ou uma posição de trabalho? Um projeto
Disponibilidade requerida Conforme necessário

Prazo de Entrega: Não estabelecido

Habilidades necessárias

Modelagem de Dados Estruturação de Dados Database Interpretação dos dados Data Science Data Mining Data Analyst (Python) Data Analyst (R)

Projeto banco de dados - dissertação

Sobre este projeto

it-programming / data-science-1

Aberto