Een recent onderzoek toont aan dat artificiële intelligentie, via GPT-4, fouten in radiologierapporten kan detecteren met een nauwkeurigheid die dicht in de buurt komt van die van ervaren radiologen. Van de 200 geanalyseerde rapporten liet GPT-4 vergelijkbare prestaties zien, terwijl het sneller en zuiniger was.
In een onderzoek dat tussen juni en december 2023 werd uitgevoerd in een Amerikaanse instelling, werden 200 rapporten van verschillende radiologische onderzoeken (röntgenfoto's, scans en MRI's) verzameld. Hiervan werden er 100 opzettelijk voorzien van 150 veelvoorkomende fouten (weglatingen, invoegingen, syntaxisfouten, rechts/links verwarring, enz.)
Zes radiologen (twee seniors, twee assistenten en twee co-assistenten) en ChatGPT-4 werd gevraagd om deze rapporten na te lezen. Het doel was om het vermogen om fouten te detecteren te vergelijken tussen mensen en artificiële intelligentie, met behulp van de χ2-test en Student's t-test voor statistische analyse, waarbij rekening werd gehouden met de tijd die werd besteed aan het nalezen.
Vergelijkende prestaties van ChatGPT-4 en radiologen
De resultaten laten zien dat de prestaties van ChatGPT-4 vergelijkbaar zijn met die van radiologen. Het detectiepercentage van fouten door artificiële intelligentie werd geschat op 82,7% (124/150; 95% CI 75-87,9), vergeleken met:
- Senior radiologen: 89,3% (134/150; 95% CI 83,4-93,3)
- Assistenten: 80,0% (120/150; 95% CI 72,9-85,6)
- Co-assistenten: 80,0% (120/150; 95% CI 72,9-85,6)
Het verschil tussen de groepen was niet statistisch significant. Eén van de senior radiologen viel echter op met een detectiepercentage van 94,7% (142/150; 95% CI 89,8-97,3; p=0,006).
Tijd- en kostenefficiëntie
In termen van snelheid presteerde ChatGPT-4 significant beter dan radiologen, met een gemiddelde tijd per rapport van 3,5 ± 0,5 seconden, vergeleken met 25,1 ± 20,1 seconden voor radiologen (p < 0,001). In financiële termen waren de kosten voor het corrigeren van een rapport ook lager met GPT-4, geschat op $0,03 ± $0,01 vergeleken met $0,42 ± $0,41 voor radiologen (p < 0,001).
Conclusies en vooruitzichten
Deze retrospectieve studie suggereert dat GPT-4 radiologen effectief kan helpen bij het beoordelen van rapporten, waarbij de meest voorkomende fouten worden gedetecteerd met een prestatie die dicht in de buurt komt van die van ervaren professionals. Er is echter prospectief onderzoek nodig om deze resultaten te bevestigen voordat deze methode op grote schaal wordt toegepast. Bovendien blijft het trainen van de converserende agent om fouten te detecteren een uitdaging, aangezien deze nog niet toegankelijk is voor alle beeldvormingsafdelingen.
De integratie van artificiële intelligentie in de radiologie, zoals aangetoond in deze studie, zou een potentiële oplossing kunnen zijn voor het verminderen van diagnostische fouten en het vermijden van kritieke situaties zoals die onlangs in het nieuws zijn geweest.
Laatste reacties
Valérie Verstraeten
12 juni 2024Wat hebben fouten zoals weglatingen, invoegingen, syntaxisfouten, rechts/links verwarring, enz. te maken met diagnostiek?