Logo PUCPR

SELEÇÃO DE CLASSIFICADORES EM FLUXOS DE DADOS BASEADA EM PERFORMANCE DE CURTO PRAZO

RESUMO

INTRODUÇÃO: Atualmente, os algoritmos Adaptive Random Forest (ARF) e Stream Random Patches integram o estado da arte de algoritmos aplicados ao problema de classificação de streams. Ambos os algoritmos são baseados em ensembles e contém técnicas de diversos algoritmos para lidar com dados evolucionários. Apesar da diversidade e acurácia dos classificadores, os learners contém a memória de treinamento de diferentes períodos, que possivelmente não garante que todos os learners sejam aptos a classificar as instâncias mais recentes. Dessa forma, abordagens de seleção de classificadores podem desempenhar uma melhora no processo de fusão final realizado para combinar a saída dos learners, mas têm sido pouco exploradas na literatura. – OBJETIVOS: O principal objetivo do projeto consiste em desenvolver abordagens de seleção de classificadores de um ensemble para fluxos de dados baseadas na performance dos classificadores nas instâncias mais recentes. – MATERIAIS E MÉTODO: Neste projeto, apresentamos um método de seleção dinâmica de classificadores para ensembles online, baseado na densidade da acurácia dos classificadores nas instâncias mais recentes. O método desenvolvido influencia somente no processo de voto, sendo aplicado a quaisquer ensembles já existentes na literatura. Com base na acurácia dos learners nas últimas n instâncias, a heurística estipulada para seleção de classificadores é baseada no número de classificadores com acurácia igual 0 <= x<= |W|, sendo W uma janela deslizante. – RESULTADOS: A análise da densidade serviu como ferramenta efetiva para seleção de classificadores, pois, em geral, melhora o resultado da classificação de ensembles que são estado-da-arte para a aprendizagem de máquina online, sem produzir overhead significativo de processamento. – CONSIDERAÇÕES FINAIS: Além dos bons resultados obtidos, o projeto abriu várias questões que podem ser investigadas em novos estudos. Também é possível continuar a investigação sobre diferentes métricas de seleção baseadas em densidade, utilização de diferentes base learners, seleção em ensembles regressores com base na densidade, seleção de classificadores com aprendizado supervisado com atraso de informação de label baseado em densidade, dentre outros trabalhos futuros.

PALAVRAS-CHAVE:

mineração de fluxo de dados; aprendizagem adaptativa; seleção dinâmica de classificadores online.

APRESENTAÇÃO EM VÍDEO

Sessão E-Pôster:
(P3.4.8) Sessão Pôster: PIBITI – Todas áreas e PIBIC – Ciências Exatas e Agrarias (P.4) : 26/10 – 11h30 – 12h00 – Hall – Bloco Verde A14
Esta pesquisa foi desenvolvida com bolsa de Iniciação Científica com recursos da PUCPR
Legendas:
  1. Estudante;
  2. Orientador;
  3. Colaboradores.

Compartilhe

Share on facebook
Share on linkedin
Share on twitter
Share on email