INTRODUÇÃO: O uso de Registros Eletrônicos em Saúde (RES) é recorrente em hospitais e consultórios médicos, isso acontece pela sua ampla informatividade relacionada a histórico de pacientes e tratamentos médicos. Tais informações podem ser extraídas e identificadas com o uso de ferramentas e técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (AM). Apesar do número de pesquisas sobre o assunto ter aumentado significantemente nos últimos anos, poucas foram produzidas para a língua portuguesa, causando escassez de informações sobre as especificidades deste idioma no cenário de processamento dos textos. Além das particularidades específicas da língua, os próprios textos clínicos contêm individualidades no seu escopo. Dentre estas, estão as informações sensíveis de pacientes que precisam ser removidas/mascaradas antes de serem utilizadas pelo público, já que estas podem expor dados privados de pessoas físicas. Os RES também são conhecidos por não serem estruturados e não conterem um padrão de sequência de informação. O processo de de-identificação é necessário para detectar e substituir/remover qualquer tipo de informações sensíveis de RES para manter a privacidade dos indivíduos. A de-identificação deve ser realizada como a primeira tarefa nos textos clínicos, antes destes ficarem disponíveis para a extração de informações. – OBJETIVOS: O foco deste estudo foram os modelos de PLN, incluindo do deep learning para de-identificação de textos clínicos em português. – MATERIAIS E MÉTODO: Este projeto propõe um novo método de de-identificação de narrativas clínicas em português, separado em duas etapas, ambas baseadas em dicionários de termos sensíveis, medidas se similaridade e expressões regulares. Essa seção foi dividida em duas partes, considerando o explicado na Metodologia: De-Identificação primária (a qual foi feita em conjunto com o InCor) e De-Identificação de complemento (feita em sequência, como refinamento). O algoritmo desenvolvido foi aplicado em 300 narrativas de um hospital do Brasil. . Foram identificados acertos e erros do algoritmo, e discutidas soluções para tais. Também são descritas diferentes abordagens de de-identificação para o cenário de processamento de textos clínicos em português. – RESULTADOS: Foi proposto um algoritmo de de-identificação para narrativas clínicas em português. De 5.027 documentos, 318 destes foram de-identificados incorretamente, sendo que 6.33% dos documentos foram analisados manualmente, assim 93.67% dos documentos foram de-identificados corretamente com o primeiro passo da metodologia. – CONSIDERAÇÕES FINAIS: Foi possível contemplar o desenvolvimento de um novo método de de-identificação para textos clínicos em português, aprimorando dois algoritmos de extração de informações já existentes, incorporando técnicas de anonimização e de de-identificação dos textos clínicos. Contudo, os dicionários de termos sensíveis e expressões regulares, além de recursos de similaridade não foram suficientes para uma completa remoção de termos sensíveis dos RES. Ainda houve situações em que o algoritmo não foi capaz de identificar corretamente tais termos (12,4% dos textos), além de mascarar alguns que não deveriam ser considerados sensíveis, o que dificultou o entendimento do texto.