Lokální AI. Co nabízí NVIDIA NIM a Blueprints?
Seznam kapitol
Umělá inteligence už přestává být doménou pouze velkých datových center a cloudových služeb, a to i díky službám NVIDIA NIM a knihovně návodů na NVIDIA Blueprints.
Díky stále rostoucímu výkonu grafických karet, jako jsou NVIDIA řady RTX 5000, ale i starších generací RTX 4000, a neustále se rozšiřující knihovně návodů na NVIDIA AI Blueprints a služeb NVIDIA NIM, se pokročilé AI aplikace stávají dostupnějšími i na běžných počítačích vybavených grafickou kartou RTX. Tyto změny přinášejí nejen značnou úsporu za předplatné, větší soukromí a kontrolu nad daty, ale také nové možnosti pro vývojáře, tvůrce obsahu a nadšence do umělé inteligence.
NVIDIA NIM a Blueprints
Co jsou vlastně tyto mikroslužby a blueprinty? Jedná se o předpřipravené a uživatelem upravitelné AI workflow navržené pro různé specifické případy. Tyto „výrobní plány“ jsou postaveny na NVIDIA NIM mikroslužbách, což jsou kompletní balíky optimalizovaných AI modelů připravených k rychlému nasazení a integraci do dalších aplikací.
NIM mikroslužby fungují jako kontejnery, které obsahují vše potřebné ke spuštění AI modelů – od samotných modelů přes optimalizované enginy až po API a runtime závislosti. Hlavní výhodou těchto kontejnerů je, že jsou připraveny běžet na jakémkoliv hardwaru, ať už se jedná o cloud ve velkém datacentru, nebo osobní počítač vybavený grafickou kartou RTX.
Zásadní rozdíl mezi různými typy blueprintů spočívá v místě jejich spuštění. Zatímco mnoho blueprintů vyžaduje cloudové prostředí, Run-on-RTX blueprinty jsou speciálně optimalizovány pro lokální spuštění na počítači s RTX grafickou kartou.
Hardwarové požadavky pro AI PC s RTX
Nároky na většinu blueprintů jsou poměrně vysoké a pro bezproblémový běh Run-on-RTX blueprintů je potřeba mít grafickou kartu vyšší třídy. Ačkoliv se může zdát, že grafiky jako RTX 4070 mají slušný AI výkon, většina blueprintů s nimi není kompatibilní a vyžaduje spíše RTX 4080 nebo vyšší. Nové karty z řady RTX 5000 dosahují ještě lepších výsledků a většinou dokáží zkrátit dobu zpracování až na polovinu.
Kromě výkonné grafické karty je potřeba i dostatečná paměť RAM – 48 GB je silně doporučeno, což je výrazně více než u běžných herních PC, kde obvykle stačí 16 až 32 GB. Dále je nutné mít poměrně velké a hlavně rychlé úložiště, protože většina modelů zabírá i desítky gigabajtů a je potřeba je rychle zpracovávat. Poslední podmínkou pro spuštění NIM služeb je Windows 11 s povolenou virtualizací (kterou lze zapnout v BIOSu) a Windows Subsystem for Linux (WSL).
Proč nestačí slabší grafika?
Nejde jen o výkon grafické karty, ale především o velikost VRAM a počet Tensor jader. Například RTX 4080 má 16 GB VRAM a 304 Tensor jader, což je často minimum pro lokální spuštění složitějších AI modelů. RTX 4090 s 24 GB VRAM a 512 Tensor jádry nabízí až o 45 % vyšší výkon v AI úlohách. Nejnovější RTX 5090 s 32 GB VRAM a 3352 TFLOP AI operací a podporou FP4 compute výkon v AI aplikacích ještě zdvojnásobuje.
Není však pevně dané, že se slabší grafikou to nepůjde. Sám jsem dokázal na RTX 4070 Super spustit některé služby, ale generování trvá déle a občas může skončit chybou.
3D Guided Generative AI Blueprint
Jako skvělý příklad, jak může AI pomoci v 3D modelování, je zde blueprint 3D Guided Generative AI Blueprint, který ukazuje zajímavou aplikaci generativní AI v 3D modelování. Pomocí tohoto blueprintu můžete kontrolovat kompozici 3D scén v Blenderu pomocí AI generovaných obrázků, což výrazně urychlí představu o výsledné scéně.
K instalaci tohoto blueprintu zvládne skoro každý i bez hlubších znalostí programování. Na začátku je důležité mít počítač vybavený odpovídající RTX grafikou – ideálně RTX 4080 nebo silnější – a také dostatečně velkou operační paměť, což doporučuji ověřit před samotnou instalací.
Jako první je potřeba ověřit, zda máte povolenou virtualizaci. To lze jednoduše v správci úloh v sekci výkon a procesor. Ve výpisu by mělo být napsáno Virtualizace: Povoleno. Pokud tak není, v BIOSu vašeho počítače je nutné aktivovat virtualizaci, protože většina běhu AI probíhá pod subsystémem Linuxu na Windows (WSL). Poté je možné stáhnout a spustit oficiální instalační balíček NVIDIA NIM Setup, který zařídí základní nastavení prostředí, nainstaluje potřebné nástroje a připraví systém pro další kroky – od správy balíčků přes Git až po Microsoft Visual C++ a samotný Blender. Blender zde slouží jako uživatelské rozhraní pro scénu, kterou budete chtít využít k řízení výsledného obrázku.
Důležitým krokem je také registrace na portálu Hugging Face, kde si během chvilky zřídíte účet a vygenerujete API token. Tento token slouží k autorizaci a zpřístupní vám AI model, který se bude pro generování obrázků použivat. Podrobný návod najdete na Githubu NVIDIA, kde můžete krok za krokem nainstalovat tento blueprint.
Princip je jednoduchý: blueprint využívá 3D scénu, jak ji nastavíte v Blenderu, jako depth mapu pro model FLUX.1-dev. Tato mapa pomáhá AI modelu pochopit, kde mají být modely umístěny. Model dokáže pracovat i s nízkokvalitními 3D modely – stačí hrubé tvary, které se následně konvertují do odstínů šedi. Následný workflow probíhá přes ComfyUI, výkonný nástroj pro řetězení generativních AI modelů. Pomocí ComfyUI Blender pluginu propojujete Blender s ComfyUI a na pozadí NVIDIA NIM mikroslužba zajišťuje optimální výkon FLUX.1-dev modelu na grafické kartě RTX.
Takto generovaný obrázek je mnohonásobně rychlejší než běžné renderování scény. Navíc můžete pomocí textových příkazů rychle měnit vzhled nebo osvětlení bez nutnosti znovu renderovat celou scénu. Náhled scény tak máte připraven během desítek sekund namísto několika minut. Blueprint poskytuje výrazně lepší kontrolu nad kompozicí než pouhé textové prompty. Kvalita výsledných obrázků je vysoká díky modelu FLUX.1-dev, který patří mezi nejlepší dostupné text-to-image modely.
PDF to Podcast Blueprint
Transformuje běžné PDF dokumenty na poslouchatelné, poutavé podcasty pomocí umělé inteligence. Využívá k tomu jazykové LLM modely, převod textu na řeč a infrastrukturu NVIDIA NIM microservices. Výhodou je, že celý proces probíhá bezpečně přímo na vašem zařízení s RTX – data tak nemusí nikdy opustit váš počítač a zůstávají plně pod vaší kontrolou.
Blueprint PDF to Podcast umožňuje zadat hlavní PDF jako zdrojový dokument a případné další PDF jako kontext pro rozšíření znalostí. Následně pomocí volitelného „guide promptu“ může také určit, na co se má výsledný podcast zaměřit (například „Vypíchnout hlavní trendy v letošním reportu“). Jakmile je workflow spuštěno, systém přečte, shrne a rozdělí obsah na relevantní části, vygeneruje přehlednou osnovu a převede jednotlivé segmenty do formy dialogu. Výsledkem je autentický podcastový zážitek, často i s více řečníky nebo scénami.
Nasazení PDF to Podcast Blueprintu je navrženo tak, aby bylo snadné jej spustit na vlastní pracovní stanici s podporovanou RTX grafickou kartou. Kombinuje extrakci a sumarizaci informací z dokumentů, automatické generování dialogu a převod do mluvené podoby pomocí vlastních i externích TTS služeb. Řešení šetří čas při zpracování obsáhlých souborů a umožňuje využívat informace opravdu „na cestách“, typicky třeba při studiu nebo pracovních schůzkách.
Podrobný návod na nastavení opět najdete v repozitáři na Github.
Na webu NVIDIA Blueprints je k dispozici řada dalších specifických blueprintů připravených pro lokální běh na PC s grafickou kartou RTX. Je patrné, že NVIDIA buduje rozsáhlý ekosystém AI služeb a blueprintů pro různé oblasti použití. Pravidelné aktualizace NIM služeb a blueprintů s nejnovějšími optimalizacemi zvyšují výkon na stejném hardwaru. Kategorie Run-on-RTX se neustále rozšiřuje o další modely, jak dochází k optimalizaci a zvyšování výkonu běžných grafických karet RTX.
Možnost spustit tyto aplikace lokálně přináší mnoho výhod – úsporu za tokeny v cloudových řešeních, větší soukromí dat a možnost nastavit parametry AI modelů přesně podle vašich představ.