2021-10-01

”Det är inte alls omöjligt att ha deepfake i videosamtal”

FOTO: SHUTTERSTOCK/BILDMONTAGE: NICLAS MARTINSSON/DT

I måndags publicerade DT artikeln Lena blev lurad på pengar av teckenspråkig romansbedragare. Vad som är unikt med hennes fall är att hon inte bara textchattade utan också hade videosamtal med honom på teckenspråk. Lena (fingerat namn) hade svårt att veta om bedragaren utgav sig för att vara en känd profil eller var sitt riktiga jag. DT tar därför reda på om man kan använda ett förfalskat ansikte (deepfake) under ett pågående videosamtal.

Det finns många skickligt gjorda deepfakes på nätet och i sociala medier. Ett exempel är brittiska Channel 4:s uppmärksammade alternativa jultal av drottning Elizabeth. Andra kända ansikten har också blivit manipulerade som till exempel skådespelare Tom Cruise och USA:s före detta president Donald Trump.

När det gäller deepfakes i videosamtal, har ryske oppositionspolitikern Aleksej Navalnyjs stabschef Leonid Volkovs ansikte använts för att lura nederländska och baltiska politiker under videomöten. Deepfakes i videosamtal är dock inte lika utbrett som förfalskade ansikten i filmer och videoklipp (de är inspelade i förväg). Istället är det mycket vanligare att man kan ändra bakgrund och lägga till filter som katt och mustasch i videomöten.

Lena, som DT berättade om i måndags, hade videochattat med romansbedragaren tre eller fyra gånger.

– Det är väldigt svårt att veta om det är han på riktigt eller någon annan som utger sig för att vara han. Eller om det är en grupp som ligger bakom, sade hon.

Hans teckenspråk var enligt Lena väldigt likt den kända profilens sätt att teckna. Dessutom kunde Lena se att den miljö som bedragaren befann sig i gick att känna igen från den kända profilens Instagram-inlägg.

DT kan se att de bilder som romansbedragaren skickade på sig själv till Lena var manipulerade (”photoshoppade”). Därför är frågan om bedragaren också förfalskade sitt ansikte när han videochattade med Lena.

DT tar kontakt med Mårten Björkman, universitetslektor i robotik, perception och lärande vid KTH i Stockholm.

Han berättar att tekniken bakom deepfake ofta är baserad på så kallade generativa modeller. Generativ* betyder skapa/bringa fram. Om man har en väldig massa exempel på exempelvis hur en människa rör sig, kan modellen lära sig hur en människa i allmänhet rör sig och sedan generera artificiella exempel som är så lika verklig rörelse att man inte kan skilja dem åt.

– För att skapa en trovärdig artificiell videosekvens behövs flera olika delkomponenter och dessa måste alla passa ihop för att sekvensen ska upplevas som realistisk. För exempelvis människor kan man tänka sig att man behandlar rörelse, utseende (inklusive klädsel) och tal med olika generativa modeller, som sedan på ett eller annat sätt måste kombineras ihop. Inte bara varje komponent måste kännas verklighetstrogen, utan även kombination måste göra det, skriver Mårten Björkman i ett mejl.

– Är det en viss person man vill återskapa vill det till att man har tillräckligt mycket bilddata med just denna person. Då är det naturligtvis en fördel om det är en känd person för vilken det finns mycket bilddata.

Är det tekniskt sett möjligt att skapa trovärdiga deepfakes i samband med videosamtal?
– Med tanke på hur långt man kommit inom forskningen i dag, skulle jag tro att detta inte alls är omöjligt, speciellt om man slipper ta hänsyn till något ljud. Andra omständigheter tror jag dock också har stor betydelse. Om sekvensen är kort och visas i låg upplösning hinner man inte uppfatta att något inte riktigt stämmer. I det läget fyller man ofta omedvetet i det som vill tro eller det man tror utifrån tidigare erfarenheter.

– Att i realtid generera en kontinuerlig sekvens i en dialog med någon annan är dock väldigt mycket svårare än om sekvenserna är inspelade i förväg. Det torde inte minst kräva en hel del datorkraft, långt mer än vad som finns i en mobiltelefon. Sedan måste ju sekvensen vara helt kontinuerlig, utan något som helst avbrott, vilket rent tekniskt måste vara mycket svårt.

– Problemet blir dock enklare om det enda som bytts ut är ett ansikte. Också där har man ju nytta av att slippa hantera rösten, eftersom en viktig komponent för att identifiera personen försvinner. Det förutsätter ju dock att man har en kropp och ett kroppsspråk som påminner om den man härmar.

Reds anm: man måste också kunna härma en persons sätt att teckna om man ska använda deepfake i videosamtal på teckenspråk.

Lena berättade för DT att romansbedragaren troligtvis använde en dator när han videochattade med henne. Hon använde själv sin mobil då.

– Om man använder en mobil enhet blir det lättare att förklara varför bilden inte är helt perfekt. Man räknar helt enkelt inte med att bilden är helt perfekt. Om bilden vore perfekt, vilket kanske är naturligt i ett annat sammanhang, hade minsta avvikelse fått en att ana oråd, förklarar Mårten Björkman.

Han vill framhålla att deepfake inte enbart är av ondo. Ett exempel är:

– En fördel som man annars ofta framhäver är integritet. Om man exempelvis behöver en bild eller video för att illustrera en vanlig människa, behöver man inte nödvändigtvis använda en bild på en verklig människa, utan bilden kan mycket väl vara rent artificiellt skapad av en generativ modell, skriver han.

Exempelvis kan en person vara anonym i en tv-intervju med hjälp av deepfake istället för ett pixlat ansikte, något som DN tar upp i artikeln i vilken Mårten Björkman och andra blivit intervjuade.

På frågan om hur vanligt Mårten Björkman tror att deepfake blir i framtidens videosamtal, svarar han:

– Jag tror att man i framtiden tyvärr måste räkna med att allt man ser inte nödvändigtvis behöver vara sant. I dag är det trots allt inte helt lätt att luras genom att utnyttja deepfake, men med tiden kommer säkert trösklarna att bli allt lägre.

NICLAS MARTINSSON
niclas.martinsson@dovastidning.se

*Generativa modeller kan förklaras med att de inte bara används för att analysera bilder utan även för att skapa nya bilder med de egenskaper man vill ha

Har du videochattat med en teckenspråkig nätbedragare?

Har du varit i kontakt med en teckenspråkig eller döv nätbedragare via videochatt? Kontakta niclas.martinsson@dovastidning.se (som har tystnadsplikt). Du kan vara anonym om det blir aktuellt med en intervju.