INTRODUÇÃO: O Reconhecimento de Emoções na Fala (REF) é um conjunto de métodos que processam e classificam as ondas sonoras da voz e detectam as emoções presentes. Essa é uma área de pesquisa que tem um papel importante em várias aplicações, como por exemplo: robótica, realidade virtual, avaliações de comportamento, e centrais de atendimento de emergência. A REF traz consigo inúmeros benefícios, destacando-se o possível impacto positivo nas áreas da psicologia e psiquiatria, ajudando a diagnosticar transtornos psicológicos. – OBJETIVOS: O objetivo deste projeto é avaliar a fusão de representações baseadas em imagem (espectrograma) e informações estruturadas obtidas a partir do sinal do áudio para a classificação de emoções na voz. – MATERIAIS E MÉTODO: Tendo como principal tarefa avaliar a fusão de representações na classificação de emoções na fala, a metodologia utilizada apresenta 6 etapas. Na etapa 1 foi realizado um levantamento do estado da arte sobre a classificação de emoções em áudio (voz). Na etapa 2 foi selecionada e preparada a base de áudio a ser utilizada no projeto. As etapas 3 e 4 foram dedicadas à implementação de métodos de extração de características (representação) a partir de sinal de áudio. Na etapa 5 foram treinados modelos profundos, os quais foram combinados posteriormente. Finalmente, na etapa 6 foi realizada uma análise comparativa visando demonstrar o impacto da fusão dos modelos criados. – RESULTADOS: Para essa pesquisa foi utilizada a base Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). Esta base contém 1440 arquivos: 60 tentativas por ator x 24 atores (12 mulheres, 12 homens), vocalizando duas declarações lexicalmente combinadas em um sotaque norte-americano neutro. As emoções da fala incluem expressões de calma, alegria, tristeza, raiva, medo, surpresa e desgosto. A base foi organizada considerando holdout, sendo 70% dos atores para treinamento e 30% para teste. Foram implementados classificadores baseados em informação estruturada e espectograma. Notou-se que a acurácia dos classificadores baseados em imagem é superior ao de maneira estruturada, por isso os dois classificadores finais são baseados na imagem do espectrograma. Foram treinados, uma CNN (Convolutional Neural Network) e uma combinação de CNN e LSTM (Long Short-Term Memory). Este último classificador (CNN+LSTM) realiza uma análise do espectrograma dividido verticalmente, ou seja, este leva em conta informação temporal. Já o classificador com abordagem CNN analisa o espectrograma por completo. Investigou-se a fusão tardia destes dois classificadores usando regras da soma e produto, além do uso de ponderação estimada em acurácia na base de treino. A melhor taxa de acerto na base de teste foi observada usando produto sem ponderação (82,9%). – CONSIDERAÇÕES FINAIS: Com base nos resultados obtidos é possível afirmar que a estratégia de fusão de classificadores baseada em espectrogramas e informações estruturadas a partir do sinal do áudio para a classificação de emoções na voz torna-se eficaz quando utilizada a estratégia de fusão por soma de resultados, e ainda mais eficaz quando utilizada a estratégia de fusão por produto dos resultados. O uso de ponderação não trouxe ganhos para o processo de fusão, além disto os melhores modelos foram os baseados em espectograma.