Logo PUCPR

AVALIAÇÃO DO IMPACTO DE TÉCNICAS DE SELEÇÃO DE INSTÂNCIAS EM ENSEMBLES ORIENTADOS A FLUXOS DE DADOS

IZIDORO, Vitor Rodrigues ¹; ENEMBRECK, Fabricio ²
Curso do(a) Estudante: Ciência Da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência Da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: A geração crescente de dados em tempo real de diversas fontes, dispositivos móveis e sensores realça a importância da mineração de fluxo de dados (Data Stream Mining – DSM). A classificação desses fluxos enfrenta desafios significativos, como conceitos em constante mudança, alta frequência de novos exemplos e recursos computacionais limitados. Algoritmos baseados em Ensembles têm mostrado bons resultados, mas ainda consomem muitos recursos. OBJETIVOS: Diante das limitações impostas pelo grande volume de dados em fluxo, esta pesquisa visa estudar como técnicas de Seleção de Instâncias podem mitigar a complexidade computacional envolvida na classificação de fluxos de dados com ensembles. O objetivo é avaliar e desenvolver técnicas de seleção de instâncias para ensembles orientados a fluxos de dados, viabilizando a aplicação desses algoritmos em cenários de larga escala. MATERIAIS E MÉTODO: Foram estudadas técnicas de seleção de instâncias para ambientes batch e stream, avaliando o impacto nos algoritmos de classificação de fluxos de dados (ARF e SRP), e desenvolvendo e avaliando uma técnica simples de seleção de instâncias baseada no erro de classificação, com o objetivo de ignorar o treinamento em instâncias cuja classificação obtida é a correta. RESULTADOS: Ao longo da pesquisa foi possível concluir que a aplicação dos ensembles para cenários de larga escala continuam inviáveis para casos em que a velocidade computacional é a prioridade, mas sendo viável em condições onde a principal prioridade seja a taxa de acerto, também sendo visível que a seleção de instâncias é capaz de reduzir o consumo de recursos computacionais ao sacrificar a taxa de acerto, abrindo caminho para futuras pesquisas serem desenvolvidas com técnicas de seleção de instâncias mais avançadas, em busca de mitigar as limitações encontradas. CONSIDERAÇÕES FINAIS: Técnicas mais elaboradas de seleção de instâncias podem ser utilizadas ao avaliar-se a complexidade de classificação de uma instância (instance hardness) avaliando-se, por exemplo, a entropia existente entre as decisões dos membros do ensemble, as probabilidades de saída geradas, dentre outras estratégias. Essas novas abordagens devem fazer parte da continuidade da presente pesquisa.

PALAVRAS-CHAVE: Mineração de Fluxos de Dados; Seleção de Instâncias; Ensembles

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBIC.