Logo PUCPR

AVALIANDO MODELOS BERT PARA A ANÁLISE DE SENTIMENTOS

DANDRADE, Larissa Hey ¹; PARAISO, Emerson Cabrera ²
Curso do(a) Estudante: Tecnologia Em Inteligência Artificial Aplicada – Pucpr Online – Pucpr Online
Curso do(a) Orientador(a): Engenharia De Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: A compreensão e representação eficazes de palavras são fundamentais para rotinas de Processamento de Linguagem Natural (PLN). Métodos como Word2Vec e GloVe utilizam redes neurais para treinar modelos que predizem a probabilidade de uma palavra aparecer em um contexto específico. Recentemente, modelos mais avançados como o BERT, têm mostrado resultados superiores devido à sua capacidade de interpretar interações complexas entre palavras bidirecionalmente. Este projeto busca avaliar a efetividade do BERT (Bidirectional Encoder Representations from Transformers) da Google na tarefa de análise de sentimentos em textos. OBJETIVOS: O objetivo geral é avaliar a efetividade dos algoritmos de Word Embeddings na tarefa de Análise de Sentimentos em dados textuais. Os objetivos específicos incluem: Identificar os algoritmos de Word Embeddings mais apropriados para a análise de sentimentos; Implementar experimentos para avaliar a efetividade desses algoritmos; Avaliar os resultados obtidos nos experimentos. MATERIAIS E MÉTODO: O estudo utilizou duas bases de dados rotuladas contendo manchetes de notícias do G1. Foram empregadas diversas ferramentas e bibliotecas em Python, como SciKit Learn para algoritmos tradicionais de machine learning, NLTK para pré-processamento, e PyTorch para abordagens baseadas em redes neurais. O desempenho dos modelos foi avaliado por meio de métricas como matriz de confusão, acurácia, F1-Score e recall. Para os experimentos, foi utilizado o modelo LSTM com embeddings gerados pelo BERT e pelo TF-IDF. RESULTADOS: Os experimentos iniciais com classificação multiclasse mostraram que a distribuição das classificações na base de dados impacta a performance dos modelos. Modelos treinados em bases balanceadas apresentaram maior acurácia. Nos experimentos com o BERT como algoritmo de Word Embedding, foi realizado um comparativo de desempenho do modelo LSTM utilizando embeddings BERT e TF-IDF. Os resultados indicaram que o modelo com TF-IDF teve um desempenho superior na maior parte das emoções, enquanto o modelo usando BERT conseguiu um desempenho melhor no acerto de todas as emoções. CONSIDERAÇÕES FINAIS: Os resultados desta pesquisa demonstram que o BERT, mesmo com sua capacidade de capturar contextos bidirecionais, não superou o TF-IDF em todas as métricas de avaliação.

PALAVRAS-CHAVE: Word Embeddings; BERT; Análise de Sentimentos; Machine Learning

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida na modalidade voluntária no programa PIBIC.