Logo PUCPR

MÉTODO COMPUTACIONAL PARA CRIAÇÃO DE BASES SINTÉTICAS DE LOGS DE EVENTOS COM CONCEPT DRIFTS

RADUY, Caio ¹; SATO, Denise Maria Vecino ³; SCALABRIN, Edson Emilio ²
faixa-semic-branco
Curso do(a) Estudante: Engenharia Civil – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência Da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: Os processos de negócios são sequências de atividades que visam atingir um objetivo. Essas atividades são registradas pelos sistemas de informação em logs de eventos. Porém, como os processos são dinâmicos, a sequência de execução das atividades pode ser alterada, ou atividades podem ser removidas ou adicionadas. Essas mudanças que ocorrem no processo ao longo do tempo são chamadas de mudanças de conceito — concept drifts ou process drifts. Atualmente, existem diversos métodos para detecção dessas mudanças, no entanto, não existem logs de eventos artificiais que possibilitem uma validação mais completa. Existem algumas iniciativas para gerar esses logs artificiais, porém, não há um método que permita sistematizar e facilitar essa geração. OBJETIVOS: Criar um gerador de logs de eventos com drifts, simulando registros próximos a situações reais e propor um protocolo de experimentos para comparação das abordagens de detecção de drifts. MATERIAIS E MÉTODO: Definiu-se diferentes algoritmos para a geração de logs de eventos usando como base o PM4PY. Os algoritmos recebem como entrada modelos de processos e geram logs de eventos em consonância com tais modelos. Levou-se em conta os quatros tipos canônicos de drifts: abruptos, graduais, repentinos e recorrentes. Pode-se também especificar taxa de ruído e função de decaimento no caso da geração de drifts graduais. Estruturou-se também um protocolo de testes usando a métrica F-score. Aplicou-se tal protocolo sobre seis abordagens de detecção de drifts: VDD, Apromore-ProDrift fixed e adaptive, ProM-Concept Drift, IPDD adaptive trace by trace e fixed. RESULTADOS: Os experimentos foram divididos em três momentos: 1) aplicação do protocolo de testes usando 2 datasets da literatura; 2) geração de 10 réplicas para cada log de uma base de dados existente, totalizando 170 logs de eventos com drifts, para comparar as réplicas com os logs originais usando o teste de Wilcoxon; 3) geração de um conjunto de logs sintéticos com diferentes parâmetros e submissão deles aos detectores de drifts e cálculo do F-score. O protocolo de testes revelou que as ferramentas de janelamento fixo tem a acurácia da detecção muito influenciada pelo tamanho da janela. Nos logs replicados, dos 17 logs (replicados 10 vezes), 14 obtiveram resultados significativamente iguais em pelo menos 8 das 10 vezes. Adicionalmente, sobre os logs de eventos com drifts gerados pelo PDG, obteve-se F-score médio maior ou igual a 95% para o IPDD trace by trace e o Apromore-ProDrift fixed, ambos detectores de drifts com janelamento fixo (100 traços). CONSIDERAÇÕES FINAIS: O PDG foi implementado e os primeiros resultados permitiram obter logs de eventos com: (a) diferentes tamanhos, (b) intervalos variáveis entre os drifts, (c) diferentes tipos de drifts, (d) número variáveis de drifts, e (e) ruído. O estudo das funções de probabilidades permitiu a implementação de drifts graduais com decaimento linear ou exponencial. A validação realizada com as réplicas de logs existentes ressaltou a consistência do gerador PDG. E, finalmente, o protocolo de testes foi aplicado e apresentado para a comunidade científica (conferência ICAISC2022, Qualis A2).

PALAVRAS-CHAVE: Mineração de Processo; Process Drift; Concept Drift; Log de Eventos; Geração de Logs de Eventos.

APRESENTAÇÃO EM VÍDEO

Esta pesquisa foi desenvolvida com bolsa PUCPR no programa PIBIC Master
Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador