Fastlæge Benedicte Wardemann demonstrerer, hvordan Noteless transskriberer patientkonsultationer i realtid og systematiserer indholdet til et færdigt udkast til journalnotat, som fanger både medicinske problemstillinger og følelsesmæssige nuancer.
Flere og flere fastlæger tager i brug kunstigt intelligente assistenter, der transskriberer under patientkonsultationer. En af disse er specialisten i almen medicin, Benedicte Wardemann.
– Hvis du vil, kan jeg spille en patient og fremlægge et problem? Så kan vi se, hvordan programmet fanger op de forskellige dele?
Fastlæge Benedicte Wardemann ved Vest Helse og Trening i Bærum demonstrerer, hvordan hendes kunstigt intelligente assistent fungerer. Hun trykker på knappen «ny konsultation» på pc’en, før hun begynder at tale:
– Hej, jeg vil gerne have hjælp til at tabe mig. Jeg har prøvet før og har forsøgt mange forskellige diæter. Jeg formår måske at tabe fem kilo, før jeg bemærker, at det bliver for svært at opretholde. Så bryder jeg sammen og tager på igen. Dette er selvfølgelig skamfuldt for mig, og jeg føler, at jeg ikke mestrer noget, som alle andre tager for givet.
Mens Wardemann taler, kan man se, at ordene dikteres løbende på pc-skærmen – via en lille, rund, sort mikrofon på skrivebordet. Navnet på programmet er Noteless, en kunstigt intelligent assistent, der skal hjælpe sundhedspersonalet med dokumentationsarbejdet. Wardemann fortsætter med at spille en typisk patient, før hun derefter lader som om, at hun er lægen i denne fiktive konsultation.
Når samtalen er færdig, foretager fastlægen et par tryk på pc’en. Resultatet? Et udkast til et færdigt journalnotat. Hun læser opsummeringen højt.
– Aktuelt: Ønsker hjælp til vægttab. Har forsøgt forskellige diæter tidligere med forbigående effekt. Formår at tabe ca. fem kilo, før det bliver for svært at opretholde vægttabet. Tager derefter på igen. Oplever dette som psykisk belastende med følelse af skam og manglende mestring.
Programmet systematiserer altså indholdet i patientkonsultationen efter punkterne Aktuelt, Fund, Vurdering og Tiltag. Og notatet bliver ifølge Wardemann en del længere, end hvad hun selv ville have skrevet.
– Jeg synes, det er fascinerende, at den bruger så gode sætninger. Skulle jeg have skrevet dette, havde jeg brugt én eller to linjer – maks. Jeg ville nok heller ikke have fået med, at hun oplever denne skamfølelse og manglende mestring, som også er en del af kompleksiteten ved at tabe sig.
Efter at have set, at alt stemmer i notatudkastet, kopierer fastlægen teksten over i patientens faktiske journal og sparer med dette værdifulde minutter.
At Wardemanns KI-baserede journalnotat bliver længere, mere udførligt og får med flere nuancer, end hun selv ville prioritere at skrive ned, er interessant at have for øje, når man ser nærmere på forskningen, der er udført på forskellige sprogmodeller. I flere studier finder man nemlig, at sprogmodellernes svar på sundhedsspørgsmål ser ud til at blive opfattet som mere empatiske end svar fra faktiske læger.
Tidsskriftet publicerede for nylig en undersøgelse med titlen Kunstig intelligens og lægers svar på sundhedsspørgsmål (1). Her blev 192 sundhedsrelaterede spørgsmål med tilhørende svar fra læger hentet fra hjemmesiden Studenterspør.no. Derefter blev sprogmodellen GPT-4 benyttet til at lave et nyt sæt svar på de samme spørgsmål. I en blindtest blev begge svar – fra både lægerne og GPT-4 – vurderet af en gruppe respondenter med sundhedsfaglig baggrund. Og resultaterne?
Svar fra den kunstigt intelligente sprogmodel blev opfattet som mere empatiske, vidende og hjælpsomme end svar fra faktiske læger.
En af forskerne bag undersøgelsen er Ib Jammer, som er ph.d. og anæstesiolog ved Haukeland universitetssygehus. Han fortæller om baggrunden for undersøgelsen:
I en af sine forelæsninger præsenterede han nemlig en lignende undersøgelse fra USA (2), hvor man undersøgte netop, hvordan ChatGPT besvarede sundhedsspørgsmål.
– De resultater, der dengang blev publiceret, viste, at svarene fra ChatGPT ofte blev vurderet som meget bedre end svar fra mennesker. Det syntes vi var interessant. Skal en computer virkelig være bedre end os? Hvordan er det egentlig? Og fungerer det også på norsk?
Med dette som baggrund blev altså undersøgelsen til Jammer og medarbejdere udført. Men på trods af at man i flere studier finder, at sprogmodellernes svar på sundhedsspørgsmål faktisk opfattes som mere vidende, er det også vigtigt at være klar over modellernes svagheder.
Der findes eksempler på sprogmodeller, som har sagt ting, de ikke burde sige, fortæller Iege med doktorgrad i kunstig intelligens, Ishita Barua.
– Jeg tror, det var en mand i Belgien, som tog sit eget liv efter råd fra en sprogmodel. Det er netop denne slags uønsket adfærd, man vil undgå. Dette skal reguleres, og det er grunden til, at sprogmodeller er vanskelige – fordi kommunikation er meget dynamisk. Dette er svært at regulere i dag, og det vil også være svært i fremtiden. Men folk må tage til sig, at det er tale om en sprogmodel – der er ikke tale om reel empati.
Barua mener, at sprogmodeller kan være et nyttigt værktøj både for læger og patienter, så længe de bliver forstået og brugt korrekt. Men der er mange aspekter ved brugen, som vi skal tage højde for, og som vi måske endnu ikke er klar over, siger hun.
Der er mange mennesker, der er ensomme, som ikke har nogen at tale med, og som finder stor trøst ved at bruge sprogmodeller
– der er mange mennesker, der er ensomme, som ikke har nogen at tale med, og som finder stor trøst ved at bruge sprogmodeller. Vi formår for eksempel ikke at imødekomme disse behov i psykiatrien. Så givet at dette er kommet for at blive, må vi gøre, hvad vi kan for at sikre, at disse modeller er så sikre som muligt. Men igen: Jeg ved ikke, om det er muligt at gennemregulere dette.
Undersøgelsen publiceret i Tidsskriftet indgår i rækken af mange studier, der på det seneste er blevet udført med sprogmodeller inden for sundhedsvæsenet. I flere af disse finder man også, at sprogmodellerne præsterer bedre end lægerne selv, fortæller Barua.
– De sidste seks måneder er der kommet en del studier, der tester sprogmodeller på medicinske spørgsmål og cases. Det er typisk ChatGPT, man har testet, og flere af resultaterne viser, at den præsterer bedre end læger alene og læger, som endda benytter sprogmodeller. Det sidste er noget af det, der har været en smule opsigtsvækkende.
I en svensk undersøgelse (3), for nylig publiceret i BMJ Open, fandt man derimod resultater, der gik i den modsatte retning. Barua understreger, at denne undersøgelse er mere sammenlignelig med norske forhold, idet den er udført i vores naboland og i højere grad anvender kasuistikker, der ligner ægte kliniske situationer.
– Der fandt man, at lægerne præsterede bedre end sprogmodellerne. Altså stik i den modsatte retning. Det skal måske vægtes meget mere – at man har reelle kliniske situationer, hvor sprogmodellerne ikke formår at præstere på niveau med læger. Det er meget interessant, at vi nu har studier med modstridende resultater.
Det er meget interessant, at vi nu har studier med modstridende resultater.
Varierende resultater trods – at kunstig intelligens er kommet for at blive, både inden for sundhedsvæsenet og i mange andre dele af samfundet, er der ingen tvivl om. Mange har måske gjort sig bekendt med de forskellige værktøjer, der findes, mens andre måske har en lidt mere skeptisk tilgang. For nogle kan denne kraftfulde teknologi nærmest opleves som en trussel.
– Jeg tror ikke, at sundhedspersonale bliver erstattet af KI, men vi kan blive erstattet af folk, der ved, hvordan vi kan udnytte de værktøjer, som KI giver os. Jeg plejer altid at sige, at vi ikke bliver overflødige – vi skal bare finde nye nicher, vi kan arbejde med. Og det hjælper ikke at modsætte sig brugen. KI kommer. Vi kan vælge at være med, hoppe på toget – eller blive efterladt på stationen, siger Jammer.
Barua sammenligner indførelsen af nutidens KI-teknologi med indførelsen af internettet i sin tid.
– Dette er noget, der vil blive så gennemgribende for alle dele af samfundet. Det er lidt som at sammenligne med, hvorfor man skulle lære at bruge internettet. Vi har brug for, at alle har en forståelse af, hvad dette grundlæggende set er. At når du får anbefalinger fra kunstigt intelligente modeller som læge, skal du stå fast med den faglige integritet, der kræves. Du skal forstå, hvad denne teknologi egentlig består af, og hvornår den er i et grænseland, der kræver, at du griber ind. Du skal kunne forudse, hvad der kan gå galt, og hvilke faldgruber der findes, før det sker.
De områder, hvor man er kommet længst med kunstig intelligens i sundhedsvæsenet, er dem, hvor man bruger mange billeder og mønstergenkendelse, mener Barua. Eksempler er radiologi, kardiologi, dermatologi og gastroenterologi.
– Derudover er der også stor opmærksomhed omkring generativ KI og sprogmodeller, fortæller hun.
Tilbage på fastlægekontoret hos Benedicte Wardemann ved Vest Helse og Trening i Bærum hænger der lapper rundt omkring i lokalet med information om, at fastlægerne bruger kunstig intelligens under konsultationerne. Ifølge Wardemann har ingen patienter indtil videre reageret, selvom de kan se på pc-skærmen, at de ord, de siger, dikteres løbende.
Hun præciserer, at mikrofonen ikke optager selve samtalen, men transskriberer det, der bliver sagt. Den KI-baserede løsning er uafhængig af selve journalsystemet.
– Det er ikke naturligt at sige for eksempel navnet eller fødselsnummeret på patienten højt, når man taler med patienten. Derfor er den helt uafhængig af persondata.
Og når patientkonsultationen er færdig, fortæller Wardemann, at hun bruger cirka ét minut på at gennemgå journalnotatet for at tjekke, at alt stemmer.
– Man skal altid tjekke. KI-modellen er en “pleaser”. Du bemærker, at den altid er positiv og ikke ser nogen begrænsning i vidensgrundlaget.
Netop det – at kende de vigtigste faldgruber – er helt essentielt ifølge Barua.
– Jeg tror, at automatiseringsbias er en af de største faldgruber. Vi har overdreven tillid til maskiner, så vi begynder at læne os for meget op af beslutninger og anbefalinger fra KI-modeller. Nummer to er det med algoritmisk diskrimination – at du har KI-modeller, som måske ikke er trænet på et tilstrækkeligt mangfoldigt datagrundlag.
Vi har overdreven tillid til maskiner, så vi begynder at læne os for meget op af beslutninger og anbefalinger fra KI-modeller.
Når det kommer til tidsbesparelse, pointerer Jammer, at man får mere ud af sprogmodellerne, hvis man lærer at skrive gode instruktioner.
– Hvis vi i vores undersøgelse ikke havde lavet nogen instruktion – blot præsenteret et spørgsmål – ville vi have fået et svar, der ville have taget lang tid at redigere, siger han.
For fastlæge Wardemann, som har en liste på 1.150 patienter, har den kunstigt intelligente teknologi givet hende mere plads til at trække vejret i hverdagen.
– Hvor meget tid tror du, du sparer i løbet af en gennemsnitlig arbejdsdag?
– Over en time. Og det har ikke gjort, at jeg fylder dagen med flere patienttimer – det har gjort, at jeg faktisk får luft. Jeg har det bedre med mig selv.
Hun mener, at man skal turde være fremsynet.
– Jeg tænker, at vi skal turde bruge ny teknologi, som skal hjælpe os i hverdagen. Jeg føler, at jeg får tilbage min tid, og at jeg får brugt mere tid på lægerollen. Så mit råd til kolleger er, at de bør prøve, være positive over for ny teknologi, men selvfølgelig: være klar over, at det stadig er os, der er chefen.