GRANDES MODELOS DE LINGUAGEM NA IDENTIFICAÇÃO DE INFORMAÇÕES EM TEXTOS CLÍNICOS EM PORTUGUÊS
INTRODUÇÃO: O aumento da popularidade dos Large Language Models traz consigo as perguntas de como estes podem ser aplicados em diferentes áreas com o propósito de auxiliar em múltiplos processos. A área clínica tem demonstrado interesse em aplicar LLMs em seus processos, visto que com a sua implementação a tarefa de leitura de textos clínicos pode se tornar significativamente agilizada e aprimorada. Os modelos de linguagem possuem o potencial de processamento de grandes volumes de texto, sendo capazes de identificar e extrair informações relevantes com maior eficiência, podendo liberar os profissionais para focar em itens mais importantes como o atendimento direto com o paciente. Entretanto, uma avaliação deve ser feita sobre os modelos para ver a sua aptidão em um campo clínico visto que os dados encontrados devem ser tratados com muito cuidado e importância. As respostas dos modelos podem afetar o tratamento de pacientes que requerem cuidados. OBJETIVOS: Aprimorar algoritmos e modelos de extração de informações de textos clínicos em português para identificação de diagnósticos e procedimentos, adaptando LLMs ao contexto de textos clínicos em português MATERIAIS E MÉTODO: Baseando-se na engenharia de prompt e utilizando a técnica de few-shot, foram criados múltiplos prompts para encontrar o que apresenta melhores resultados para a identificação de conceitos e entidades clínicas em textos de narrativas de saúde. A partir do prompt especificado foram analisados os desempenhos dos modelos GPT 3.5, Gemini, Llama 3 e Sabiá-2 através de 30 textos do corpus SemClinBR que contém narrativas clínicas em português. Os modelos receberam a tarefa de extração de informações das entidades: “Sinais ou Sintomas”, “Doenças ou Síndromes” e “Dados Negados” A avaliação dos modelos foi realizada com o cálculo da precisão, recall (sensibilidade) e F-Score de cada modelo. RESULTADOS: Foi criado um prompt possuindo 6 exemplos de few-shot, que apresentou o melhor desempenho para instruir os modelos na extração de informações. O Llama 3 demonstrou desempenho superior em comparação aos demais modelos. O GPT 3.5 e Gemini apresentaram resultados semelhantes, sendo o resultado do Gemini um pouco inferior. O 5 Llma obteve o melhor resultado, e o Sabiá-2 apresentou desempenho inferior. CONSIDERAÇÕES FINAIS: Os resultados dos modelos ainda não satisfatórios para que estes sejam amplamente aplicados na área clínica, porém, a sua inclusão ainda pode se mostrar útil em uma escala menor, dependendo do tipo de informação necessária e da tarefa a ser realizada. Além disto, os LLMs vem sendo cada vez mais aprimorados, e acreditamos que a performance para extração de informações de narrativas clínicas deva evoluir.
PALAVRAS-CHAVE: Inteligência Artificial; Processamento de Linguagem Natural; Narrativas Clínicas; Large Language Models; Diagnóstico Clínico