Grote taalmodellen (Large Language Models of LLM's) in chatbots kunnen menselijke taal nabootsen en snel gedetailleerde en coherent lijkende antwoorden leveren. Maar chatbots kunnen ook onnauwkeurige informatie geven, aldus een studie van de Harvard Medical School, Boston, Massachusetts en het Memorial Sloan Kettering Cancer Center, New York in de JAMA.
Omdat patiënten het internet vaak gebruiken voor zelfstudie, zullen sommigen ongetwijfeld LLM chatbots gebruiken om kanker-gerelateerde medische informatie te vinden. Dat kan leiden tot het genereren en versterken van verkeerde informatie. De Amerikaanse onderzoekers evalueerden de prestaties van een LLM-chatbot om aanbevelingen te geven voor de behandeling van borst-, prostaat- en longkanker die overeenkomen met de richtlijnen van het National Comprehensive Cancer Network (NCCN).
Een derde van de door de chatbots aanbevolen behandelingen was op zijn minst gedeeltelijk niet in overeenstemming met de NCCN-richtlijnen; de aanbevelingen varieerden afhankelijk van hoe de vraag was gesteld. Meningsverschillen tussen specialisten benadrukten de uitdagingen van het interpreteren van beschrijvende LLM-uitvoer. Meningsverschillen kwamen meestal voort uit onduidelijke uitvoer, maar verschillende interpretaties van richtlijnen door experts kunnen ook een rol hebben gespeeld. Artsen moeten patiënten adviseren dat LLM-chatbots geen betrouwbare bron van informatie over kankerbehandelingen zijn.
“LLM-chatbots kunnen slagen voor het US Medical Licensing Examination, klinische kennis coderen en diagnoses stellen die beter zijn dan die van leken. De chatbot presteerde echter niet goed bij het geven van nauwkeurige aanbevelingen voor de behandeling van kanker. De kans was groot dat de chatbots onjuiste aanbevelingen vermengde met juiste aanbevelingen, een fout die zelfs voor experts moeilijk te detecteren is”, aldus de onderzoekers.
“Onze bevindingen geven inzicht in aandachtspunten en toekomstige onderzoeksnoden. De chatbots hebben niet de pretentie een medisch apparaat te zijn en hoeven niet aan dergelijke normen te worden gehouden. Maar patiënten zullen dergelijke technologieën waarschijnlijk gebruiken bij hun zoektocht naar informatie, wat van invloed kan zijn op gedeelde besluitvorming en de relatie tussen patiënt en arts. Ontwikkelaars zouden een bepaalde verantwoordelijkheid moeten nemen om technologieën te verspreiden die geen schade veroorzaken, en patiënten en artsen moeten zich bewust zijn van de beperkingen van deze technologieën.”