Nevěřte nikomu! Ani sami sobě
To, co kdysi bylo komickou karikaturou, používanou jako ironická charakteristika paranoických jedinců frustrovaných moderní společností, je najednou tady - jako tvrdá (virtuální) realita.
Člověk najednou zjišťuje, že ti schizofrenní „pošukové" měli v
podstatě pravdu - jenže jim to prostě nikdo nevěřil... Zdá se, že už
brzy nebude možné věřit ničemu a nikomu.
Na internetu (kde, jak
praví jeden z okřídlených výroků dřevních dob webových: „nikdo neví, že
jste pes“) je možné vydávat se za kohokoli - tedy dříve to mělo jistá
omezení, dokud po vás protistrana nechtěla fotografii nebo něco, co se
jednoduše nedalo zfixlovat jako důkaz, že jste to skutečně vy a že jde
opravdu o fyzicky existující osobu. Jenže to už dávno není pravda. To,
co se ještě nedávno zdálo být věrohodnou nezfalšovatelnou skutečností,
může být klidně digitální podfuk. A nemusí jít jen o fotku upravenou
pomocí photoshopu nebo jiných grafických editorů, protože i v tomto
případě se pracovalo s něčím, co zachycovalo obraz něčeho (resp. někoho)
reálného. Nyní však přišla firma Nvidia se systémem, který dokáže
generovat naprosto fotorealistické snímky neexistujících osob.
AI pomáhá vytvořit věrný obraz neskutečného
Technologii
založenou na neuronové síti umožňující vytvářet fotografie fiktivních
osob představila firma poprvé už v roce 2017, ale nyní ji výrazně
vylepšila a přivedla téměř k dokonalosti. Neuronová síť Nvidie dokáže
vytvářet naprosto fiktivní fotografie osob na úrovni jednotlivých pixelů
nebo přenášet jen některé parametry z jedné osoby na druhou, tzn., že
po zadání vstupní fotografie osoby s brýlemi může vygenerovat snímek
fiktivního člověka, který bude mít také brýle, knírek, pleš apod. Funkce
nastavování nejrůznějších parametrů tak umožňuje stvořit neexistující,
nicméně velmi realistickou osobu s předem zadanými atributy
(fyziognomií, detaily, doplňky apod.) doslova dle požadovaných
vlastností.
Základem je technika strojového učení GAN (General
Adversarial Network), konfrontující dvě umělé inteligence, které ze
zdrojových dat vytváří stále se zlepšující obsah. Ve studii prezentující
možnosti této technologie byly využity tisíce veřejných fotek celebrit,
na nichž se AI učila, jak vypadá lidská tvář a postupně se vygenerované
podobizny snaží zpřesňovat. Obrázky jsou generovány od nejmenšího
rozlišení v řádu jednotek pixelů (začínají s rozlišením 4 x 4 px) a
postupným učením a vylepšováním se dostávají až na úroveň 1024 x 1024
px. I když ne všechny obrázky jsou dokonalé (technologie, která se
osvědčila u portrétů, zatím ne vždy 100% fungovala u různých objektů
nebo živočichů, jako jsou např. zvířata či ptáci v pohybu), finální
výsledky jsou pozoruhodné.
Nicméně určitou útěchou může být, že kvůli
vysokým nárokům na výkon počítače schopného provádět takovéto věci je
nezvládne jen tak doma kdokoli (zatím). Vyžaduje to superpočítač a
docela dost času. Což je s postupujícím technologickým vývojem stejně
jen otázkou času.
Zvládne i pohyblivé obrázky
Aktuální
modlou japonských teenagerů je virtuální modelka Imma, která nastoupila
na scénu před několika týdny a už se, ačkoli de facto nejde o reálnou
osobu, stala jednou z nejvlivnějších osobností tzv. influencerů ve své
branži. Grafické studio CG ModelingCafe, které ji vytvořilo, ji výstižně
nazvalo podle japonského slova ima, znamenajícího nyní, aby ji
profilovalo jako symbol moderních technologií. Také tvářemi luxusní
značky Balmain jsou už virtuální modelky vytvořené přesně podle
požadavků aktuálních genderových stereotypů, aby se nikdo neurazil.
Virtuální krásky Margot, Shudu a Zhi, které stvořil britský fotograf
Cameron-James Wilson, reprezentují bělošku, Afričanku a Asiatku, a jsou
už nějaký čas hitem instagramu, kde mají tisíce sledujících.
Čínská
televize zase předvedla možnosti, které moderní technologie nabízejí v
oblasti „předstírané reality“. Představila totiž virtuálního moderátora,
který uvádí a čte zprávy ve vysílání místo živého člověka. I jeho
podoba byla vytvořena na základě dat získaných z pečlivé analýzy tváří,
jaké mají diváci v oblibě. Čínský vyhledávač Sogu vytvořil tyto
virtuální moderátory dva (jeden mluví čínsky, druhý funguje pro
angličtinu). Mají podobu mladého muže působícího seriózním a sympatickým
dojmem a pomocí analýzy záběrů konkrétních lidských moderátorů, které
byly zkombinovány za použití strojového učení, byl získán výsledný
model. Televize přiznala, že jde o umělou bytost, ovšem navždy tomu tak
být nemusí. Téma neexistující virtuální bytosti, která sklízí famózní
úspěch mezi veřejností, přesvědčené o skutečné fyzické existenci herecké
hvězdy, skvěle ztvárnil ve filmu „Simone“ s Al Pacinem v roce 2002
režisér Andrew Nicol - tehdy ovšem ještě jako sci-fi...
Kdopak to mluví?
A
pokud už dokážeme ošálit vizuálními kouzly zrak, je na řadě samozřejmě
sluch. Také v oblasti manipulace s audio záznamem a zvukovým výstupem už
dosáhla technologie značný pokrok, a to do té míry, že umožňuje obdobně
napodobit na základě získaných vzorků hlas kohokoli (za předpokladu, že
je k dispozici dostatečný soubor jeho řečových projevů). Softwarů
zaměřených na tento segment existuje poměrně bohatá škála, od prostých
hlasových syntetizérů používaných v call centrech nebo informování
cestujících v dopravě až po sofistikované systémy umožňující doslova
kouzla a dokonalou imitaci mluveného projevu charakteristického pro
danou osobu. Chcete řeč třeba populární filmové hvězdy nebo Donalda
Trumpa, kterou ve skutečnosti tito lidé nikdy nepronesli? Dnes už žádný
problém.
Jako jeden příklad za všechny lze zmínit např. software
kanadské firmy Lyrebird, specializující se na hlasové aplikace, která na
úvodní stránce svého webu sděluje: „Tvoříme nejrealističtějí umělé
hlasy na světě". A zdá se, že nepřehání.
Startup z Montrealské
univerzity představil experimentální rozhraní API umožňující na základě
zvukového záznamu syntetizovat prakticky cokoliv. Podle firmy k tomu
stačí aspoň minutový vhodný záznam skutečného hlasu dané osoby (čím více
dat, tím jsou výsledky lepší). Vytvářet z něj další obsah sice podle
firmy není možné bez souhlasu vlastníka uměle vytvořeného hlasu, nicméně
např. u veřejně činných osob, kde je na internetu více než dostatečná
zásoba takovýchto záznamů s kvalitními hlasovými daty, to může znamenat
potenciál ke zneužití. Sama firma to ostatně dokumentovala na svém webu
prezentací několik syntetizovaných nahrávek v podobě fiktivních projevů
Donalda Trumpa, Baracka Obamy či Hillary Clintonové s velmi
přesvědčivými výsledky. Software Lyrebird dokáže navíc přizpůsobovat
různé parametry hlasového výstupu, umožňuje měnit tempo řeči, intonaci
apod. Zatím funguje (naštěstí) jen pro angličtinu.
Firma má ovšem i
ušlechtilé cíle - je např. zapojena do projektu Revoice, který se snaží
pomoci lidem postiženým ALS (progresivním neurodegenerativním
onemocněním, jež může způsobit u postižených osob ztrátu schopnosti
mluvit), vrátit jim znovu hlas, byť v syntetizované podobě. Nicméně
bychom si měli zřejmě rychle zvyknout na to, že doba orwellovských vizí s
možnostmi dokonalé manipulace s fikcí vydávanou za skutečnost se
neodvratně blíží - pokud už nenastala...
Josef Vališka