Logo PUCPR

UTILIZANDO TÉCNICAS DE BALANCEAMENTO DE DADOS NA CLASSIFICAÇÃO DE RÓTULOS MUSICAIS

PEREIRA, Lucas Sotomaior Alves ¹; JUNIOR, Carlos Nascimento Silla ²
Curso do(a) Estudante: Ciência Da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência Da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: O problema de classificação de gêneros musicais é uma tarefa importante na área de Music Information Retrieval. A informação dos gêneros musicais pode ser utilizada por diferentes sistemas de Music Information Retrieval como sistemas de recomendação musicais e geradores automáticos de playlists. OBJETIVOS: Este trabalho investiga o impacto de diferentes técnicas de balanceamento de dados em um conjunto de dados de músicas tradicionais irlandesas desequilibrado, com o objetivo de mitigar o viés em modelos de aprendizado de máquina e melhorar a previsão, especialmente de classes minoritárias. MATERIAIS E MÉTODO: O conjunto de dados consiste em 10.200 músicas, categorizadas em 11 gêneros, cada uma representada por 1.022 características musicais de alto nível. A técnica de Smote foi aplicada para equilibrar a base de dados, variando o número de vizinhos mais próximos (k) em 3 e 5, além de ser combinada com TomekLink, utilizando diferentes estratégias de undersampling. Diferentes algoritmos de classificação, incluindo Decision Tree, Random Forest, Naive Bayes, Multilayer Perceptron e SVM, foram combinados com as estratégias de balanceamento e comparados usando validação cruzada em 10 partições RESULTADOS: A avaliação do desempenho abrangeu métricas como acurácia, precisão, recall e F-measure, além da análise de matrizes de confusão para cada modelo. Na análise buscou-se descobrir qual dos métodos de balanceamento e classificação é o mais preciso e acurado para prever cada classe, principalmente as classes minoritárias. CONSIDERAÇÕES FINAIS: No geral os resultados foram inconclusivos sobre o benefício do uso de técnicas de balanceamento de dados para os diferentes classificadores na base de dados utilizada. Contudo, o Random Forest foi o que obteve os melhores resultados com a maioria dos experimentos obtendo resultados melhores que o baseline.

PALAVRAS-CHAVE: Classificação de Gêneros Musicais; Classificação Hierárquica; Balanceamento de Dados

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBIC.