ChatGPT wordt steeds beter in het vermelden van bronnen

Artificiële intelligentie boekt bliksemsnelle vooruitgang. In staat om een groeiend aantal vragen te beantwoorden en teksten samen te stellen, is artificiële intelligentie razendsnel doorgebroken in de geneeskunde en op vele andere gebieden. Er woeden discussies over de betrouwbaarheid en vooral de vraag naar de gebruikte bronnen ligt gevoelig. Maar er wordt vooruitgang geboekt. 

ChatGPT is nu niet alleen in staat om een groot aantal vragen te beantwoorden, maar ook om nieuwe inhoud samen te stellen. Er zijn onlangs een aantal publicaties verschenen over de mogelijke toepassingen in de geneeskunde. Het blijkt dat het een aanzienlijke hulp kan zijn bij onderzoek. Grote wetenschappelijke tijdschriften zoals Science zijn echter van mening dat ChatGPT geen auteur is en geen originele artikelen schrijft. Met 'origineel' bedoelen we dat de persoon die het artikel ondertekent ook daadwerkelijk de persoon is die het geschreven heeft en verantwoordelijk is voor het beschreven onderzoek. 

Een ander groot probleem is het vermogen van ChatGPT om correcte referenties te geven. Het lijkt echter de goede kant op te gaan. In een nieuwe studie die net is gepubliceerd in JAMA, testten Californische onderzoekers het vermogen van ChatGPT om als 'co-piloot' inhoud te creëren die is ontworpen om learning health systems (LHS) te trainen. Ze onderwierpen de GPT-4-versie aan een reeks onderwerpen, sommige zeer breed, andere zeer specifiek. De auteurs van het onderzoek noemen "data en LHS" als voorbeeld van een breed onderwerp. Het voorbeeld dat ze geven als specifiek onderwerp is de constructie van een model om het risico op een beroerte te voorspellen. En omdat de productie van artificiële intelligentie gebaseerd is op 'prompts', vroegen de onderzoekers ook welke referenties de artificiële intelligentie gebruikt.  In dit verband zijn prompts zinnen tekst die de artificiële intelligentie interpreteert om haar resultaten te produceren. Elke verwijzing naar een krantenartikel werd gecontroleerd, met name door ervoor te zorgen dat het artikel daadwerkelijk bestond in de geciteerde krant en door een Google-zoekopdracht uit te voeren op de opgegeven titel. Elk artikel dat niet aan deze criteria voldeed, werd als vals beschouwd. Om een betrouwbare schatting van het percentage valse artikelen te krijgen, was het aantal gecontroleerde artikelen zeer hoog. De 95%-betrouwbaarheidsintervallen voor de percentages valse artikelen werden berekend en er werd een vergelijking gemaakt met de vorige versie (Chat GPT-3,5).   

ChatGPT-3.5 werd geëvalueerd door 162 artikelen waarnaar werd verwezen te controleren. Hiervan waren er 159, of 98,1%, fout, met een 95% betrouwbaarheidsinterval variërend van 94,7% tot 99,6%.  In de evaluatie die door de Californiërs werd uitgevoerd met ChatGPT-4, werden 257 artikelen gecontroleerd en slechts 53 daarvan waren valse verwijzingen. Dit komt overeen met een foutenpercentage van 20,6% (95% CI 15,8%-26,1%). Dit is aanzienlijk lager dan bij ChatGPT-3.5. De auteurs concluderen dat de antwoorden die versie 4 op een probleem geeft, na verificatie nuttig kunnen zijn als aanvullend materiaal bij het ontwerpen van LHS voor training en leren. En de referenties moeten ook door mensen worden geverifieerd. De referenties van ChatGPT-3.5 mogen niet worden gebruikt.

U wil op dit artikel reageren ?

Toegang tot alle functionaliteiten is gereserveerd voor professionele zorgverleners.

Indien u een professionele zorgverlener bent, dient u zich aan te melden of u gratis te registreren om volledige toegang te krijgen tot deze inhoud.
Bent u journalist of wenst u ons te informeren, schrijf ons dan op redactie@rmnet.be.