Logo PUCPR

DETECÇÃO DE ÁUDIOS FALSOS REPRESENTADOS NO ESPAÇO DE DISSIMILARIDADE

MARTINS, Fernanda Ferreira ¹; JUNIOR, Alceu De Souza Britto ²
faixa-semic-branco.png
Curso do(a) Estudante: Engenharia Mecânica – Escola Politécnica – Câmpus Curitiba
Curso do(a) Orientador(a): Ciência Da Computação – Escola Politécnica – Câmpus Curitiba

INTRODUÇÃO: O reconhecimento de voz é amplamente utilizado em inúmeras aplicações, com destaque para a identificação biométrica. Neste contexto, Deepfake tem sido utilizado para soluções que aplicam Deep Learning na geração de falsificações. Este artigo aborda a detecção de áudios falsos (spoofing) e ataques de repetição (replay) por meio da representação dos áudios no espaço de dissimilaridade usando técnicas de aprendizado de máquina. OBJETIVOS: Desenvolver métodos de detecção de áudios de voz falsos usando representações nos espaços de características e dissimilaridade. Para tal, pretende-se treinar modelos cognitivos representados no espaço de características versus espaço de dissimilaridade na tarefa de classificação de áudios, como genuínos ou falsos, disponíveis na base ASVspoof 2019 (Automatic Speaker Verification – Spoofing). MATERIAIS E MÉTODO: Utilizou-se a técnica de parametrização Mel-Frequency Cepstral Coefficients (MFCC) para converter os áudios da base para a frequência MEL e depois transformá-los em imagens de espectrogramas. Por conseguinte, foi utilizada uma rede neural artificial (Inception) para extrair características dos MFCCs, resultando em vetores de 2048 características para cada áudio. A dissimilaridade foi calculada comparando esses vetores com os vetores de referência, tanto para áudios bonafide quanto para áudios spoof em duas abordagens distintas: espaço de dissimilaridade e vetor de dissimilaridade (a partir da distância euclidiana). Em seguida, empregou-se o classificador Random Forest para determinar se os áudios são genuínos ou falsificados com base nas diferenças calculadas. RESULTADOS: Os resultados foram comparados considerando os classificadores baseados em 5, 10 e 15 referências bonafide (1) e spoof (0), medidos por acurácia, f1-score e matrizes de confusão. O modelo destaque foi o Espaço de Dissimilaridade utilizando 10 referências bonafide, com 70% de acurácia e 61% de f1-score. CONSIDERAÇÕES FINAIS: Diante dos resultados alcançados, é possível concluir que os objetivos propostos neste estudo foram plenamente alcançados, e os resultados demonstraram que a abordagem no espaço de dissimilaridade superou a representação com vetores de características disponibilizados pela CNN utilizada, o que revela uma abordagem promissora para aprimoramento e detecção de áudios falsos.

PALAVRAS-CHAVE: detecção de áudios falsos; espaço de dissimilaridade; deepfake

APRESENTAÇÃO EM VÍDEO

Esta pesquisa foi desenvolvida com bolsa CNPq no programa PIBITI
Legendas:
  1. Estudante
  2. Orientador
  3. Colaborador