Bild genererad via DALL-E.
I projektet jag är del av har vi genomfört runt 30 intervjuer med olika intressenter inom Sveriges flygplatsvärld för att skapa förståelse kring införandet av teknologi på flygplatser och hur teknologin påverkar markpersonalens arbetsmiljö. För att transkribera intervjuerna har vi använt Open AIs Whisper, som funkar på det viset att man lägger in sin ljudfil i ett program och så spottar programmet ut en textfil med transkriptionen.
Generellt fungerade systemet väldigt bra och minskade tiden som krävdes för att transkribera, men viss handpåläggning krävdes definitivt, eftersom det fanns ett antal återkommande problem som är värda att uppmärksamma. Med det sagt ska det sägas att det finns olika versioner som garanterat påverkar outputen, samt att systemet säkert är bättre på engelska än svenska, men här måste jag erkänna att det inte var jag utan min eminenta kollega Andreas Bergqvist som installerade programmet och bland annat säkerställde att det gick att köra programmet lokalt. Följande recension är skriven av en hobbylingvist och hopplös programmeringsanalfabet som inte har full koll på de tekniska specifikationerna utan bara vill ha ett användbart verktyg.
Först och främst kan det av olika skäl bli väldigt knasiga ord som Whisper föreslår. Ofta var det på grund av att ljudkvalitén i sig var dålig, men även när det kommer till väldigt specifika ord, specifikt till flygbranschen exempelvis, kunde programmet få problem. Amsterdams flygplats Schiphol blev vid flera tillfällen fel då Whisper föreslog att det istället skulle vara ”Skimpol” eller ”Skippholm”, medan ”incheckningsdiskar” kunde bli ”inskräckningsdiskar” och i de flesta fallen lades ett ”r” till i ord som ”banrapporteringssystem” till att bli ”barnrapporteringssystem”.
Ytterligare exempel på sådana enkla felidentifieringar kom ofta i talesätt. ”Goddag yxskaft” blev ”goda ytskaft”, ”Dackefejden” blev ”Daccafaden” och den bästa lilla detaljen av alla – när en respondent sa ”krisen är uppfinningarnas moder” identifierades ”krisen” som ”grisen” och därmed tillkom bilden ovan och min ambition att etablera ”grisen är uppfinningarnas moder” som talesätt. Det förekom även fel som att programmet kunde identifiera helt fel pronomen, exempelvis när respondenten ytterst tydligt sa ”vi” kunde det tolkas som ”jag”. Ordklassen är uppenbarligen korrekt identifierad, men ljudet är uppenbarligen helt annorlunda. Enstaka gånger förekom även fel som att ”vi har endast X” identifierades som ”vi har inte X”, vilket såklart blir problematiskt.
Därutöver tillkom problem som jag antar är inbyggda med en viss medvetenhet. Whisper har till synes ett arbetsminne-liknande sätt att arbeta. Exempelvis, när en respondent på kort tid sa att hen hade haft tre olika ”tjänster” tolkades det tre gånger om som ”chanser”. Första ”tjänst” kan absolut tolkas som ”chans”, men de övriga två lät desto mindre som ”chans”. Så i dess ”arbetsminne” verkar programmet ha identifierat ett ljud som en viss textsträng och identifierade följande liknande ljud som samma textsträng, i ett slags ”hellre konsekvent oavsett rätt än inkonsekvent”- resonemang.
Det som däremot fascinerade mig, utöver den generella precisionen, var de fantastiska sammansatta ord Whisper lyckades få till. ”Arbetsmiljökonsekvensanalys”, ”standardiseringskommissioner”, ”toalettservicechecklista”, och även svengelska sammansatta ord som ”safetychef” var några höjdpunkter inom kategorin sammansatta ord.
Det största problemet med programmet är att vissa osäkerheter och tillägg inte tas med. Det var oftast bara det som identifieras som centralbudskapet som inkluderades. Små uppbackningsord som ”mm”, stakningar som ”eh”, och utfyllnadsord som ”liksom” var ytterst sällan med. Mer påtagligt inkluderades inte det understreckade i följande utdrag: En person pratade om en ”Utbildning som är så jävla lång och så jävla tråkig”, en annan sa att säkerhet ”Det är ju vår högsta prioritet. Det är alltid det som är först.” och en annan menade på att ”Yttersta ansvaret har ju min chef för arbetsmiljö.” Det behöver inte vara fundamentalt väsensskilt från vad respondenten sa, men nyanser och detaljer försvinner.
Så varför spelar alla dessa exemplen som jag har beskrivit roll? Här finns det saker att säga om replikerbarhet och vetenskaplig noggrannhet, men framför allt kan det leda till problem om användare förlitar sig på mycket på program som detta. Bara för att det kan visa upp fantastiska resultat på det stora hela så innebär det inte att systemet till minsta detalj har kapaciteten att producera helt korrekta resultat. Överlag är Whisper ett intressant och hjälpsamt verktyg för att öka hastigheten i transkriptionsmomentet, men än så länge kvarstår behovet för mänsklig handpåläggning, för det finns alltid risk att det är en liten gris som gömmer sig någonstans i myllret av tvärsäkra formuleringar.