Logo PUCPR

AVALIAÇÃO DO IMPACTO DE TÉCNICAS DE SELEÇÃO DE INSTÂNCIAS EM CLASSIFICADORES MONOLÍTICOS ORIENTADOS A FLUXOS DE DADOS

CONCEIÇÃO, Isabella Lucena ¹; ENEMBRECK, Fabricio ²
Curso do(a) Estudante: Ciência Da Computação – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência Da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: Atualmente, usuários criam uma grande quantidade de informações e dados que vem de todos os tipos de dispositivos imagináveis, sejam eles ligados a alguma empresa ou não. A rapidez com a qual esse volume de informação é gerada ultrapassa a capacidade de processar, analisar, armazenar e entender esse conjunto de dados. OBJETIVOS: O objetivo desse projeto consiste em avaliar e desenvolver técnicas de seleção de instâncias para diferentes algoritmos monolíticos de classificação de fluxos de dados, de forma a investigar o impacto em performance e desempenho nesses algoritmos. MATERIAIS E MÉTODO: Utilizando o Massive Online Analisys (MOA) juntamente do MOAReduction foi possível realizar a testagem do algoritmo desenvolvido de seleção de instâncias, que seleciona para treinamento apenas as instâncias onde o classificador errou. Dessa forma é possível reduzir a quantidade de treinamento, focando apenas nas instâncias relevantes para o problema em questão. RESULTADOS: Percebeu-se que apesar de melhorar os resultados de alguns datasets, ocorreu efeito contrário no custo computacional e tempo dos algoritmos Hoeffding Trees e Naive Bayes com a seleção de instâncias, contradizendo a hipótese inicial de que a seleção de instâncias como um pré-processo que antecede o aprendizado, reduziria o tempo e o custo computacional e aumentaria a acurácia nos datasets reais. CONSIDERAÇÕES FINAIS: Mesmo percebendo avanços, se enfrentam desafios significativos para a seleção de instâncias no contexto de fluxos de dados, que devem ser investigados em pesquisas futuras. Novas pesquisas devem utilizar estratégias mais sofisticadas de seleção baseadas em performance do classificador e probabilidade, de forma a aumentar a certeza sobre qualidade das instãncias selecionadas e irrelevância das instâncias descartadas.

PALAVRAS-CHAVE: Mineração de Fluxos de Dados; Seleção de Instâncias; Aprendizagem online

APRESENTAÇÃO EM VÍDEO

Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador
Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBIC.