Logo PUCPR

MODELOS DE DEEP LEARNING PARA APRIMORAR A EXTRAÇÃO DE CONCEITOS CLÍNICOS REPRESENTADOS POR PADRÃO DE TERMINOLOGIA DA SAÚDE

RESUMO

INTRODUÇÃO: O uso de Registros Eletrônicos em Saúde (RES) é recorrente em hospitais e consultórios médicos, isso acontece pela sua ampla informatividade relacionada a histórico de pacientes e tratamentos médicos. Tais informações podem ser extraídas e identificadas com o uso de ferramentas e técnicas de Processamento de Linguagem Natural (PLN) e Aprendizado de Máquina (AM). Apesar do número de pesquisas sobre o assunto ter aumentado significantemente nos últimos anos, poucas foram produzidas para a língua portuguesa, causando escassez de informações sobre as especificidades deste idioma no cenário de processamento dos textos. Além das particularidades específicas da língua, os próprios textos clínicos contêm individualidades no seu escopo. Dentre estas, estão as informações sensíveis de pacientes que precisam ser removidas/mascaradas antes de serem utilizadas pelo público, já que estas podem expor dados privados de pessoas físicas. Os RES também são conhecidos por não serem estruturados e não conterem um padrão de sequência de informação. O processo de de-identificação é necessário para detectar e substituir/remover qualquer tipo de informações sensíveis de RES para manter a privacidade dos indivíduos. A de-identificação deve ser realizada como a primeira tarefa nos textos clínicos, antes destes ficarem disponíveis para a extração de informações. – OBJETIVOS: O foco deste estudo foram os modelos de PLN, incluindo do deep learning para de-identificação de textos clínicos em português. – MATERIAIS E MÉTODO: Este projeto propõe um novo método de de-identificação de narrativas clínicas em português, separado em duas etapas, ambas baseadas em dicionários de termos sensíveis, medidas se similaridade e expressões regulares. Essa seção foi dividida em duas partes, considerando o explicado na Metodologia: De-Identificação primária (a qual foi feita em conjunto com o InCor) e De-Identificação de complemento (feita em sequência, como refinamento). O algoritmo desenvolvido foi aplicado em 300 narrativas de um hospital do Brasil. . Foram identificados acertos e erros do algoritmo, e discutidas soluções para tais. Também são descritas diferentes abordagens de de-identificação para o cenário de processamento de textos clínicos em português. – RESULTADOS: Foi proposto um algoritmo de de-identificação para narrativas clínicas em português. De 5.027 documentos, 318 destes foram de-identificados incorretamente, sendo que 6.33% dos documentos foram analisados manualmente, assim 93.67% dos documentos foram de-identificados corretamente com o primeiro passo da metodologia. – CONSIDERAÇÕES FINAIS: Foi possível contemplar o desenvolvimento de um novo método de de-identificação para textos clínicos em português, aprimorando dois algoritmos de extração de informações já existentes, incorporando técnicas de anonimização e de de-identificação dos textos clínicos. Contudo, os dicionários de termos sensíveis e expressões regulares, além de recursos de similaridade não foram suficientes para uma completa remoção de termos sensíveis dos RES. Ainda houve situações em que o algoritmo não foi capaz de identificar corretamente tais termos (12,4% dos textos), além de mascarar alguns que não deveriam ser considerados sensíveis, o que dificultou o entendimento do texto.

PALAVRAS-CHAVE:

de-identificação; processamento de linguagem natural; narrativas clínicas; aprendizado de máquina; registro eletrônico em saúde.

APRESENTAÇÃO EM VÍDEO

Sessão E-Pôster:
(P3.2.8) Sessão Pôster: PIBITI – Todas áreas e PIBIC – Ciências Exatas e Agrarias (P.2) : 26/10 – 10h30 – 11h00 – Hall – Bloco Verde A15
Esta pesquisa foi desenvolvida com bolsa de Iniciação Tecnológica com recursos do CNPq
Legendas:
  1. Estudante;
  2. Orientador;
  3. Colaboradores.

Compartilhe

Share on facebook
Share on linkedin
Share on twitter
Share on email