Jak jsem “fotil” v Thajsku s pomocí umělé inteligence

Lze s pomocí dnešních technologií pro generování obrazu vytvořit realisticky vypadající „fotografie z cest“? Dovolil jsem si malý experiment na svých čtenářích…

Futuristic Robot Taking Photo Beautiful Exotic Thai Nature

Takhle si umělá inteligence představuje sebe sama na fotovýletě v Thajsku

Proč se zabývat tím, co umí současné umělé inteligence?

Můj nedávný výlet do Thajska neměl za cíl stát se nějak úchvatně dobrodružnou cestou. Šlo o relativně odpočinkovou dovolenou, jakou jednou za čas potřebujeme všichni. Z tohoto důvodu se mi nechtělo tahat foťák (a že bych zasypával své sledující mobilními momentkami, tak na to mám příliš sebeúcty a moc špatný telefon :) ).

Toto nastavení a zároveň relativně dost času po večerech či při přejezdech mi vnuklo nápad na experiment. Rozhodl jsem se otestovat možnosti současných AI (artificial intelligence) systémů pro generování obrazu.

Další motivací byla skutečnost, že s různými grafickými výstupy, které byly vygenerovány na základě textového příkazu, se v poslední době roztrhl pytel. Ať už jde o fantaskní vize nebo realisticky vypadající portréty.

–> TIP: Dá se podle umělé inteligence naplánovat dovolená?

thajsky zpevak v hippie baru

Thajský zpěvák v hippie baru… Samozřejmě vymyšlený strojem.

Umělé inteligence (resp. velmi pokročilé nástroje, které byly metodou strojového učení vytrénovány k určitým „dovednostem“) jsou rozhodně fenoménem současnosti a je záhodno být prakticky obeznámen s tím, co umí a jak se s nimi pracuje.

Základní otázka experimentu zněla: Je AI schopna na základě mých požadavků vygenerovat dostatečně uvěřitelné fotky, které mohu doplňovat ke krátkým facebookovým reportům tak, aby nikdo nic nepoznal?

Pokud bych měl odpovědět ve zkratce:

  • Ano jde to, ale může to dát dost práce – zejména pokud chcete nějaký negenerický obrázek typu „náhodná krajinka“ a pokud nemáte více zkušeností s tím, jak zvolený nástroj ne/funguje.
  • Především pro člověka, který má nějaké nároky na to, co ukazuje, existují (zatím) citelná omezení, která rozeberu níže.

Poznámka: Všechny „fotografie“ v tomto článku vytvořila MidJourney na základě mého textového vedení. Pár obrázků bylo malinko postprodukčně doupraveno.

In The Foreground Is Table At Rooftop Bar With Two Sweat glasses

Scéná západu slunce ze střešního baru kdesi v Bangkoku. Překvapivě hodně práce dalo dostat z MidJourney realistické a stejné sklenice s pivem.

Postup a pravidla

Pro experiment jsem si zvolil AI MidJourney, která v době mé cesty měla pravděpodobně nejlepší výsledky při generování fotorealistických výstupů.

Aby pro mě vytvářela obrázky, které si nezadají se skutečnou fotografií, musel jsem se ji naučit „ovládat“, což znamenalo trochu experimentování a pročtení několika návodných článků.

Pro publikaci výsledků jsem si nastavil několik jednoduchých pravidel:

  • Každá „fotka“ musí mít opěru v realitě. Nebudu ukazovat, co jsem nezažil nebo neviděl.
  • Obrázek musí být uvěřitelný. Nechci generovat umělé neskutečné kýče.
  • Výsledek by měl být relativně „obyčejný“. Stačí mi ilustrační „fotky“ k mým textům. Nechci se chlubit cizím peřím a sklízet chválu za krásné fotografie, které jsem nevyfotil. Dozajista jsem mohl sdílet působivější záběry, ale to nebylo cílem.
  • Nesmím ukazovat konkrétní místa, která by snadno mohla prozradit chyby ve „fotografii“.
Small Greeny Hemidactylus Frenatus Typical Asian House Gecko

Typická „domácí“ ještěrka, kterých nám na každém ubytování běhalo pár po stěnách (kde, holky šikovné, lovily otravný hmyz). Její podoba stvořená AI je poměrně dobrá, ale nikoliv přesná – proto jsem tuto fotku nakonec nezvěřejnil, abych nemátl biologické nadšence, o kterých vím, že se občas pod nějakou fotkou ozvou :)

A není to podvod?

Jistěže je. Ovšem v rámci experimentu a následně přiznaný. Když se nad tím ale člověk zamyslí, tak velká část lidí, kteří popularizují cestování, propagují se na sociálních sítích atp., stejně ukazuje realitu v přinejmenším zkreslenou a nezřídka vysloveně umělou.

Vždyt co jiného je focení atrakce z toho jediného úhlu, z něhož vypadá dobře? Co je předvádění pěstěné umělé elegance a fejkově skvělých životů instagramerek? Co jsou tendenční popisy, jak jsou nějaké místo nebo aktivita skvělé, bez doplnění kontextu, který by mohl podrýt sluníčkové vyznění?

Pokud se na věc podívám tímto úhlem pohledu, tak nevidím zas tak velký rozdíl mezi selektivním zobrazováním reality nebo jejím pečlivým retušováním a zcela strojem vygenerovaným obrazem, který je však do maximální míry založen na skutečnosti.

Beautiful Tourists Taking Selfies With Xiaomi Smartphone

Tuhle „fotku“ jsem nakonec taky nezveřejnil, protože mi přišla až moc naleštěná (a chrámu v pozadí chybí vstup :D )

Co si z experimentu odnáším

Filosofické otázky ponechme stranou a pojďme si shrnout, co jsem se při práci s MidJourney naučil:

  • V dnešní době už při troše snahy opravdu dokáže vygenerovat obrázky, které jsou na první (i druhý a třetí) pohled nerozeznatelné od skutečné fotky. Vizte případ vymyšlených záběrů ze zatčení Donalda Trumpa nebo test iRozhlasu.
  • Hodně ovšem záleží, co chcete vytvořit. Mnou testovaná MidJourney je velmi dobrá v tvorbě poměrně generických „fotek“ – kýčovité krajinky a panorámata, všeobecné záběry, na kterých se neděje nebo nevyskytuje něco moc konkrétního, nebo překvapivě třeba líbivé portréty lidí a obvyklých zvířat z oblíbených úhlů. Nejlíp umí zkrátka to, čeho je na internetu nejvíc, protože na takových datech byla natrénována. Mnohdy doslova bije do očí, že přesně tento typ fotek je velmi obvyklý, ale jakmile člověk chce něco jiného, AI selhává.
  • Věci, ke kterým má dost podkladů, umí někdy poměrně dobře zkombinovat – proto šlo vytvořit věrohodné záběry z fiktivního zatýkání bývalého amerického prezidenta nebo vtipnou „momentku“ papeže v péřové maxibundě.
  • Málo zobrazované věci nebo „netradiční“ situace či úhly pohledů ji naopak zatím nejdou. Figurku potápěče plavající v záchodové míse proto věrohodně „vyfotit“ nedokázala…
  • Je jednodušší s ní vytvořit náhodnější výjevy, resp. „nechat se překvapit“ s čím přijde. Podrobnější zadání ve smyslu toho, co má na obrázku být, tolik neumí. Například vygenerovat momentku přesně podle mých představ bylo často nemožné. Zejména proto, že zatím (podle mě) nerozumí pojmům tak dobře a neumí dát dohromady více konkrétních pokynů. Zásadním limitem je, zda se podobný obrázek/prvek na internetu vyskytuje dostatečně často.
  • Výsledky často vypadají na první pohled velmi fotorealisticky, ale obsahují nějakou hloupou chybu – kočka má dva ocasy, potápěči chybí jedna ploutev atp. Případně je na nich něco, co jako zodpovědný cestovatel nechcete ukazovat (špatné oblečení v chrámu). Až přijde verze, kde budeme schopni říct, co konkrétně je na vygenerovaném obrázku špatně a je potřeba opravit, bude to hodně velký posun. (Podobný nástroj ovšem existuje pro konkureční Stable Difusion.)

Kvůli těmto limitům jsem nakonec musel hodně slevit ze svých nároků na obrázek, který budu publikovat, a sklouznul mnohem více k obecnějším a nekonkrétním ilustračním „fotkám“. Kdybych cestoval s foťákem, byly by mé záběry výrazně dokumentárnější a plastičtější.

Typical South Eastern Mountains In Thailand forest fire

Takovéto neurčité výhledy umí AI skvěle. Mimochodem doutnající lesy jsme samozřejmě skutečně viděli – bohužel jsme se nechtěně vypravili na sever Thajska v době lesních pořárů a nejdrsnějšího smogu, co tam za dlouhá léta byl.

Pro představu co na generovaných záběrech nefungovalo:

  • Při mých pokusech mnoho nápadů selhalo na tom, že jsem stroji jen těžko vysvětloval, co konkrétně je špatně a on tvrdošíjne trval na své verzi.
    • Takže mi kupříkladu dost dlouho cpal kýčovité záběry lepých děv v buddhistických chrámech v šatičkách, které odhalovaly víc, než se do daného místa sluší.
    • Případně nedokázal zobrazit potápěče plavající na hladině moře, protože většina obrázků přece ukazuje potápěče vznášející se pod vodou.
  • V případě pokusů vygenerovat momentku obsahující více lidí jsem narážel na častý problém, že někdo neměl správný počet prstů nebo měl vykloubenou či hodně atrofovanou končetinu.

Výše popsaná omezení samozřejmě vyplývají z mého použití – tedy pokusu o „dokumentární“ fotky. Najdou se samozřejmě způsoby využití, při nichž „autoři“ dosahují mnohem lepších výsledků. Obecně bych řekl, že jsou tím lepší, čím méně lpí na realitě nebo paradoxně (v případě fotorealistických pokusů) přehnané originálnosti v určitých aspektech jako je zobrazená situace, úhel, hlavní prvek atp.

Zároveň lze čekat masivní vývoj těchto technologií a jsem zvědavý, co v brzké budoucnosti přinesou. Rozhodně se musíme připravit na to, že fotografiím na internetu budeme důvěřovat ještě méně než doposud.

Thai Barefoot Beautiful Young Woman With Covered Shoulders

Tohle jsem prostě jako zodpovědný cestovatel nemohl pustit ven

Tip z mého krámku
Mista Reklama 23

Dej si něco dobrého z krásného plecháčku s vtipnými hláškami.

Odolný hrnek o objemu 400 ml s legendárním motivem, který skvěle poslouží doma i na čundru. Nejoblíbenější dárek z mého obchodu.

Prohlédnout na eshopu

Máme se bát, že už nepoznáme realitu?

Zejména dezinformační weby musí slavit, protože najednou jim odpadne spousta práce s vytvářením podvrhů. Ať už fotomontáže nebo „od nuly“ vytvořené ptákoviny si najednou dokážou vyrobit během pár minut v super kvalitě. Jeden ze základní principů „kvalitních“ dezinformací totiž dobře pasuje do výše popsaných principů tvorby realistických obrázků – kombinuje věci, které relativně dobře známe.

Upřímně doufám, že se objeví nějaký dostatečně jednoduchý nástroj, který dokáže výtvory AI (nebo zmanipulované fotky) od skutečných záběrů spolehlivě a snadno odlišit. Pár technik, které doporučuji si osvojit, už naštěstí existuje (ale zatím vyžadují trochu zapojení a přemýšlení uživatele):

Za sebe mohu slíbit, že chci ukazovat skutečný svět (a jeho bizarní detaily) tak jak jej vidím já a ne jak jej utváří průměr miliónů obrázků z internetu. Takže se svým čtenářům omlouvám za malý nejapný fórek a pro příště se budu držet foťáku ;)

Thai Teenagers Riding In The Back Of A Pick Up Truck

Asi „nejživější“ snímek, který se mi povedlo vytvořit – vodní bitva v průběhu oslav buddhistického nového roku.

Fotogalerie, povedené i nepovedené ukázky

Pár ukázek, co se mi (ne)povedlo vytvořit. Nejprve publikované „fotky”:

 

Zde relativně povedené, ale nakonec nepublikované, protože mi nezapadaly do konceptu nebo jsem vyhodnotil, že se nedrží pravidel.

 

A nakonec pár perliček:

Bangkok Rush Street Full Of Big Cats

„Bangkok street full of big cats“. AI to pochopila po svém a já jsem se naučil, že musím přidávat „domestic cats“ pokud chcu pouliční číču a ne šelmy z džungle

Scuba Diver Sitting At Toilet Closet Realistic Photo

„Potápěč sedící na záchodě“. Nakonec docela dobré, ale proč tam ty hajzlíky jsou dva?

Female Tourist Sitting On Simple Bamboo Swing Hanging

Slečnu sedící na lavičce před chrámem MidJourney celkem zvládala, ale přidat k ní chlapa co jí fotí na smartphone už ne… To byla mimochodem u White Temple na severu Thajska velmi obvyklá scéna.

Typical Thai Song Taew Full Of People Smoggy City

Tohle jsem vygeneroval úplně omylem, protože AI absolutně nepochopila anglický přepis pro typické thajské vozítko „song thaew“, obvzláště když jsem ho zadal v dlouslovné verzi. Ale jako momentky z nějakého pouličního festivalu by to byly fakt parádní záběry :)

Komentáře

Napadá tě, co můžu v článku vylepšit? Máš aktuálnější informaci? Chceš se podělit o další užitečný tip? Rád by ses na něco zeptal(a)?
Směle piš do komentářů – pomůžeš mně i budoucím čtenářům. Vlákna komentářů lze také sledovat.
Upozornění na nové komentáře
Nekomentuji, ale
0 Komentáře
Inline Feedbacks
Zobrazit všechny komentáře