EXPLORANDO TÉCNICAS DE PROCESSAMENTO DE LINGUAGEM NATURAL PARA APRIMORAR A EXTRAÇÃO DE INFORMAÇÕES DE TEXTOS CLÍNICOS EM PORTUGUÊS
INTRODUÇÃO: A anonimização de dados de pacientes é uma preocupação crescente na área da saúde, visando garantir a privacidade e a confidencialidade das informações pessoais, sendo essencial para a geração de modelos utilizados em processamento de linguagem natural (PLN). OBJETIVOS: Este estudo apresenta um algoritmo inovador de de-identificação de textos clínicos, utilizando técnicas de PLN para remover informações sensíveis dos registros eletrônicos em saúde (RES) e, assim, permitir o estudo de patologias por médicos e pesquisadores enquanto preserva a identidade paciente. MATERIAIS E MÉTODO: O algoritmo foi desenvolvido em Python 3, fazendo uso da API do ChatGPT para a interpretação do texto clínico. A análise sintática, semântica e pragmática permitiu identificar os termos com dados pessoais sensíveis, que foram anonimizados. A linguagem Python foi escolhida pela flexibilidade e disponibilidade de bibliotecas open source, enquanto a API do ChatGPT ofereceu recursos de Processamento de Linguagem Natural para a interpretação e substituição de termos. RESULTADOS: O algoritmo demonstrou eficácia na remoção de informações identificáveis dos textos clínicos, como nomes, datas e números de documentos. O processo de de-identificação contribuiu para proteger a privacidade do paciente e, consequentemente, mitigar riscos como roubo de identidade e uso indevido de informações médicas. Os resultados também destacaram a necessidade de aprimoramento contínuo para evitar a perda de informações relevantes e garantir a interpretação correta do texto de-identificado. A aplicação do algoritmo trouxe à tona a importância da de-identificação de textos clínicos para a pesquisa médica. Embora bem-sucedido, o algoritmo ainda enfrenta desafios, como a distinção entre termos sensíveis e termos médicos legítimos. A literatura relevante reforça a complexidade da de-identificação e a necessidade de abordagens sofisticadas para preservar a integridade do texto. CONSIDERAÇÕES FINAIS: O algoritmo de de-identificação de textos clínicos apresentou resultados positivos ao preservar a privacidade do paciente, destacando seu potencial em pesquisas médicas. O estudo aponta para uma contribuição valiosa no campo da proteção de dados médicos.
PALAVRAS-CHAVE: de-identificação; Narrativas Clínicas; PLN; Inteligência Artificial. ChatGPT