De automatische transcriptietool Whisper, gelanceerd in september door OpenAI, heeft zorgen gewekt onder zorgprofessionals vanwege de neiging om “hallucinaties” in de getranscribeerde teksten te introduceren. Hoewel deze opensource technologie was ontworpen om gesprekken in meerdere talen te transcriberen, hebben verschillende ingenieurs, onderzoekers en klinisch werkers problemen met de nauwkeurigheid van de gegenereerde inhoud vastgesteld, wat twijfel doet rijzen over de betrouwbaarheid ervan in kritieke omgevingen zoals ziekenhuizen.
Met meer dan 30.000 artsen en 40 gezondheidssystemen die Whisper gebruiken om vergaderingen en consultaties met patiënten te registreren, kunnen de gevolgen van deze fouten aanzienlijk zijn. Ondanks dat Whisper getraind is met meer dan 680.000 uur aan audiogegevens verzameld van het internet, wijzen recente studies uit dat “hallucinaties” in zijn transcripties frequent voorkomen. Een onderzoeker vond vervormingen in 8 van de 10 transcripties; een ander, na het analyseren van meer dan 100 uur aan gegenereerde tekst, ontdekte dat de helft onjuiste informatie bevatte; en een ontwikkelaar ontdekte problemen in vrijwel al zijn 26.000 transcripties.
Wat houden de hallucinaties van Whisper in?
De zogenaamde “hallucinaties” van Whisper variëren van gewelddadige of racistische zinnen tot verzonnen ziektes en onzinnige uitdrukkingen die verschijnen tijdens stiltes in de opnames. Bovendien heeft het systeem in sommige transcripties typische zinnen van YouTube-video’s ingevoegd, zoals “Bedankt voor het kijken”. Deze tendens komt vaker voor bij chatbots, maar is ongebruikelijk voor transcriptiehulpmiddelen die geacht worden het originele audiogetrouw te reproduceren.
Deze problemen met Whisper hebben ertoe geleid dat sommige ziekenhuizen overwegen het gebruik ervan in kritieke contexten te heroverwegen. OpenAI zelf heeft de onderzoekers bedankt voor het delen van hun bevindingen en heeft aangekondigd dat het zal blijven werken aan het verbeteren van de nauwkeurigheid van het model, in het bijzonder in het verminderen van de hallucinaties. Bovendien heeft het benadrukt dat het hulpmiddel niet moet worden gebruikt in situaties waar beslissingen van hoog risico zijn.
Een oproep tot voorzichtigheid bij de adoptie van AI in de gezondheidszorg
Dit incident met Whisper heeft de uitdagingen blootgelegd van het toepassen van kunstmatige intelligentie in de gezondheidssector, vooral wanneer nauwkeurigheid essentieel is voor de veiligheid van patiënten. Met de vooruitgang in AI dringt de medische gemeenschap aan op de noodzaak om deze modellen aan strenge tests te onderwerpen voordat ze worden geïmplementeerd in omgevingen met hoge verantwoordelijkheid, zoals ziekenhuizen.
Terwijl OpenAI doorgaat met het verbeteren van zijn technologie, blijven zorgprofessionals, ingenieurs en onderzoekscentra de impact van Whisper en andere AI-systemen in de sector evalueren, onderstrepend hoe belangrijk het is om de betrouwbaarheid van deze hulpmiddelen in een gebied zo gevoelig als de medische zorg te waarborgen.
