Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit | Kapitola 5
Seznam kapitol
Používání lokálně akcelerované AI je snadné a přináší výhody jako lepší soukromí a nezávislost na cloudu. Jak AI rozjet a co umí?
Nyní se odprostíme od textových a chatovacích modelů a podíváme se na generování obrázků s lokální Stable Diffusion. Podobně jako dříve existovalo několik různě složitých možností, jak naistalovat konkrétní model umělé inteligence, tak se Stable Diffusion to je možná ještě trošku komplikovanější. Některé návody jsou pro běžného uživatele zbytečně náročné, ale na druhou stranu existují jiné, s nimiž zvládne instalaci každý.
Přidávám tedy video na opravdu jednoduchou instalaci pro každého. Po nainstalování vás přivítá komplikované, ale dobře použitelné webové rozhraní. Vše stále funguje lokálně, ale prohlížeč je vcelku jednoduchý prostředník, jak rozhraní spustit.
Generování obrázků už je složitější na nastavení, protože existuje mnoho parametrů, které ovlivňují výslednou kvalitu a podobu. V chatu vše jen jednoduše napíšete, ale tady vás přivítá mnoho šoupátek a nastavení.
U nich budete vyvažovat dostupný výkon a kvalitu obrázků. Přes „Width“ a „Height“ si nastavíte šířku a výšku výsledného obrázku. Pomocí tlačítka „Hires“ se dá rozlišení a kvalita ještě zvednout, ale zabere to výrazně více výkonu. Dá se přes něj v rozbalené nabídce nastavit poměr zvětšení, ale i třeba odšum nebo počet kroků při zvyšování rozlišení.
Doporučuji si vyhrát se „Sampling steps“, což pomůže s realističností výsledné fotky. „CFG scale“ je nastavení určující, jak přesně budou fotky následovat popis promptu. Vyšší hodnota značí nižší variaci mezi snímky, při nižší hodnotě jsou obrázky různorodější. Podobně pomocí „Seed“ můžete ovlivnit variaci mezi snímky, ale zde můžete pomocí dřívějšího seed znova vytvořit dřívější snímek.
Podle nastavení parametrů a podle počtu generovaných obrázků (nastavuje se šoupátkem „Batch count“) trvá generování jednotky sekund až jednotky minut. Opět zde záleží na tom, jak výkonnou máte grafickou kartu. Jen na rozdíl od předešlých jazykových modelů v tomto případě záleží více na hrubém výkonu než na kapacitě VRAM, tu jsem měl obsazenou z poloviny, tedy na 6 GB.
Výsledné obrázky mohou být hezké, ale musíte být velmi konkrétní při vyvážení promptu, přesný popis je lepší. Stále je zde problém s přesným generováním lidských tváří, takže často nebývají přesné. Při správném promptování ale dosáhnete dobrých výsledků.