INTRODUÇÃO: O reconhecimento de voz é amplamente utilizado em inúmeras aplicações, tais como dispositivos inteligentes para casas, tecnologias da área da saúde, sistemas de segurança, sistemas bancários, dentre outras. Em muitas dessas aplicações, o reconhecimento de voz é utilizado como forma de identificação biométrica. Neste contexto, Deepfake é motivo de muita preocupação, pois tem sido utilizado para soluções que aplicam Deep Learning na geração de falsificações. Para burlar o funcionamento do reconhecimento de voz, técnicas de IA podem gerar áudios falsos cujas características são muito semelhantes aos originais. – OBJETIVOS: Desenvolver método de detecção de áudios de voz falsos (audio spoofing) usando técnicas de aprendizagem de máquina e a base de áudios ASVspoof (Automatic Speaker Verification – Spoofing). – MATERIAIS E MÉTODO: A metodologia utilizada foi dividida em etapas. Na primeira delas foi realizada a instalação e entendimento da base de áudios ASVspoof 2019. Na segunda etapa foi realizado um levantamento do estado da arte sobre técnicas de detecção de áudios falsos. A partir deste estudo inicial foi possível observar que a maioria das técnicas recentes utilizam Aprendizagem de Máquina, em especial modelos profundos (Deep Learning). Na terceira etapa foi treinado um modelo profundo baseado em rede neural convolucional (do inglês, CNN, Convolutional Neural Network) considerando como entrada o sinal representado na forma de uma estrutura unidimensional com 130 entradas (vetor de características) usando MFCC (Mel-frequency cepstral coefficients). A CNN criada possui 16 camadas e 2 saídas (classes bonafide e spoof). Ao todo foram utilizadas oito camadas de convolução 1D, duas camadas de normalização de lote, duas de dropout, duas para subamostragem (max_pooling), duas camadas densas e 1 camada de flatten. Na quarta etapa do projeto utilizou-se a base estudada na Etapa 1 para avaliação do modelo. Problemas de acesso aos computadores de alto desempenho disponíveis no Laboratório de Inteligência Artificial inviabilizaram o treinamento dos modelos de convolução 2D planejados, o que prejudicou a última etapa do projeto que consistia na comparação de diferentes arquiteturas de CNN. – RESULTADOS: O modelo criado na etapa anterior foi avaliado na base de testes composta por 71.237 áudios. Observou-se uma acurácia geral de 89,68%, porém a representação usando características MFCC não foi suficiente conforme a matriz de confusão. Observou-se nesta análise uma precisão alta para áudios falsos (90%), mas uma baixa precisão para os áudios genuínos (15%). – CONSIDERAÇÕES FINAIS: Neste projeto foi possível treinar e avaliar modelo profundo baseado em técnicas de Deep Learning para o problema de classificação de áudios em reais (bonafide) e falsos (spoof). As limitações de hardware impostas pela impossibilidade de acesso remoto aos computadores do Laboratório de IA trouxeram considerável prejuízo para o andamento do projeto, mas mesmo assim, é possível considerar que o objetivo foi atingido. Os resultados observados evidenciam o grande desafio de realizar a detecção de áudios falsos mantendo um baixo erro de falsa detecção, ou seja, evitar que áudios reais sejam considerados como falsos.