Author: Jonathan Källbäcker

Grisen är uppfinningarnas moder – En recension av ett AI-transkriptionsprogram, av en programmeringsanalfabet.

Bild genererad via DALL-E.

I projektet jag är del av har vi genomfört runt 30 intervjuer med olika intressenter inom Sveriges flygplatsvärld för att skapa förståelse kring införandet av teknologi på flygplatser och hur teknologin påverkar markpersonalens arbetsmiljö. För att transkribera intervjuerna har vi använt Open AIs Whisper, som funkar på det viset att man lägger in sin ljudfil i ett program och så spottar programmet ut en textfil med transkriptionen.

Generellt fungerade systemet väldigt bra och minskade tiden som krävdes för att transkribera, men viss handpåläggning krävdes definitivt, eftersom det fanns ett antal återkommande problem som är värda att uppmärksamma. Med det sagt ska det sägas att det finns olika versioner som garanterat påverkar outputen, samt att systemet säkert är bättre på engelska än svenska, men här måste jag erkänna att det inte var jag utan min eminenta kollega Andreas Bergqvist som installerade programmet och bland annat säkerställde att det gick att köra programmet lokalt. Följande recension är skriven av en hobbylingvist och hopplös programmeringsanalfabet som inte har full koll på de tekniska specifikationerna utan bara vill ha ett användbart verktyg.

Först och främst kan det av olika skäl bli väldigt knasiga ord som Whisper föreslår. Ofta var det på grund av att ljudkvalitén i sig var dålig, men även när det kommer till väldigt specifika ord, specifikt till flygbranschen exempelvis, kunde programmet få problem. Amsterdams flygplats Schiphol blev vid flera tillfällen fel då Whisper föreslog att det istället skulle vara ”Skimpol” eller ”Skippholm”, medan ”incheckningsdiskar” kunde bli ”inskräckningsdiskar” och i de flesta fallen lades ett ”r” till i ord som ”banrapporteringssystem” till att bli ”barnrapporteringssystem”.

Ytterligare exempel på sådana enkla felidentifieringar kom ofta i talesätt. ”Goddag yxskaft” blev ”goda ytskaft”, ”Dackefejden” blev ”Daccafaden” och den bästa lilla detaljen av alla – när en respondent sa ”krisen är uppfinningarnas moder” identifierades ”krisen” som ”grisen” och därmed tillkom bilden ovan och min ambition att etablera ”grisen är uppfinningarnas moder” som talesätt. Det förekom även fel som att programmet kunde identifiera helt fel pronomen, exempelvis när respondenten ytterst tydligt sa ”vi” kunde det tolkas som ”jag”. Ordklassen är uppenbarligen korrekt identifierad, men ljudet är uppenbarligen helt annorlunda. Enstaka gånger förekom även fel som att ”vi har endast X” identifierades som ”vi har inte X”, vilket såklart blir problematiskt.

Därutöver tillkom problem som jag antar är inbyggda med en viss medvetenhet. Whisper har till synes ett arbetsminne-liknande sätt att arbeta. Exempelvis, när en respondent på kort tid sa att hen hade haft tre olika ”tjänster” tolkades det tre gånger om som ”chanser”. Första ”tjänst” kan absolut tolkas som ”chans”, men de övriga två lät desto mindre som ”chans”. Så i dess ”arbetsminne” verkar programmet ha identifierat ett ljud som en viss textsträng och identifierade följande liknande ljud som samma textsträng, i ett slags ”hellre konsekvent oavsett rätt än inkonsekvent”- resonemang.

Det som däremot fascinerade mig, utöver den generella precisionen, var de fantastiska sammansatta ord Whisper lyckades få till. ”Arbetsmiljökonsekvensanalys”, ”standardiseringskommissioner”, ”toalettservicechecklista”, och även svengelska sammansatta ord som ”safetychef” var några höjdpunkter inom kategorin sammansatta ord.

Det största problemet med programmet är att vissa osäkerheter och tillägg inte tas med. Det var oftast bara det som identifieras som centralbudskapet som inkluderades. Små uppbackningsord som ”mm”, stakningar som ”eh”, och utfyllnadsord som ”liksom” var ytterst sällan med. Mer påtagligt inkluderades inte det understreckade i följande utdrag: En person pratade om en ”Utbildning som är så jävla lång och så jävla tråkig”, en annan sa att säkerhet ”Det är ju vår högsta prioritet. Det är alltid det som är först.” och en annan menade på att ”Yttersta ansvaret har ju min chef för arbetsmiljö.” Det behöver inte vara fundamentalt väsensskilt från vad respondenten sa, men nyanser och detaljer försvinner.

Så varför spelar alla dessa exemplen som jag har beskrivit roll? Här finns det saker att säga om replikerbarhet och vetenskaplig noggrannhet, men framför allt kan det leda till problem om användare förlitar sig på mycket på program som detta. Bara för att det kan visa upp fantastiska resultat på det stora hela så innebär det inte att systemet till minsta detalj har kapaciteten att producera helt korrekta resultat. Överlag är Whisper ett intressant och hjälpsamt verktyg för att öka hastigheten i transkriptionsmomentet, men än så länge kvarstår behovet för mänsklig handpåläggning, för det finns alltid risk att det är en liten gris som gömmer sig någonstans i myllret av tvärsäkra formuleringar.

On the responsibility of putting on a show

Taking the stage for the first time as a PhD-student.

It’s been a mere three weeks since I started my PhD position in Uppsala and I’m in Swansea, Wales. The occasion is the conference ECCE (short for European Conference on Cognitive Ergonomics). Oscar Bjurling at RISE (https://www.ri.se/en/person/oscar-bjurling) and I got a paper accepted based on a project we did last year, when I was in the Cognitive Science masters program at Linköping University. “Human-Swarm Interaction in Semi-voluntary Search and Rescue Operations: Opportunities and Challenges” is what we’ve named our paper, and it’s a workshop-based study where we had discussions with experts about potential consequences of drone swarm implementation on search and rescue operations.

Having a paper accepted is all well and good, but it should also be presented. Being that this will be my first conference, I don’t really have a clue about the amount of people who will attend each presentation. I feel like it could either be a full stacked audience and bouquets of roses being handed out to every speaker, or just the one half-sleeping audience member glaring disapprovingly at every one of my attempts at arguing for seeing drone swarms as valuable search and rescue team members. With us being 11th in a line of 15 15-minute presentations the opening day, there is a definite risk that the eventual flowers will be saved for the keynote speakers.

Nevertheless, a presentation is due, and I think that we as researchers have a responsibility to make sure that the ones who do show up to see our presentation feels like it was worth it. Because if there’s one thing I’ve learned during my brief time as a university-employee is that there’s always something else you could be doing. There will definitely be people there who are stressed about grading papers, writing ethics applications, or other potentially more important stuff than watching our presentation. Now I don’t plan to completely take after the late Hans Rosling and pick up the noble art of sword swallowing for this presentation, partly because of time issues, but also because I couldn’t see the “It [The Sword] is for scientific purposes”-argument going all too well at the security check-in at the airport. However my ambition is to convince at least somebody in the audience that looking into the potential of drone swarms might be a good idea.

Similar thoughts of presentation responsibility struck me when I, in the role of teacher assistant, presented a couple of ethical issues at a seminar last week. Not only could the students probably learn more about the Trolley Problem on Youtube than from me, but I’m actually standing there claiming to know about this subject to the degree that I could be teaching it to university students.

So when preparing for this presentation, I’m being meticulous about representing the thoughts of the experts we talked to correctly, so that I can confidently argue for our analyses and conclusions, while at the same time taking the responsibility of putting on a show seriously. Because if I don’t bother, why should the audience?