Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit
i Zdroj: PCTuning s pomocí DALL-E
Software Článek Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit

Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit

Jan Pánek

Jan Pánek

11

Seznam kapitol

1. Co je lokálně akcelerovaná AI 2. ChatRTX 3. GPT4all 4. Ollama 5. Stable Diffusion 6. Nároky na výkon na shrnutí

Používání lokálně akcelerované AI je snadné a přináší výhody jako lepší soukromí a nezávislost na cloudu. Jak AI rozjet a co umí?

Reklama

Používání umělé inteligence neznamená jen placení měsíčního předplatného a obavy, kam všude se dostanou zaslaná data. Existuje ještě alternativa v podobě modelů lokálně akcelerované AI, které si rozjedete v bezpečí vlastního počítače a budete nad nimi mít aspoň nějakou kontrolu.

Nemluvím teď o různých lokálně běžících drobných pomocnících v mobilech nebo noteboocích, ale o plnohodnotných modelech. Pro ty už budete ideálně potřebovat výkonnější desktop, ale menší modely můžete rozjet i třeba na lepším notebooku.

Pro lokální akceleraci AI potřebujete výkonnou grafickou kartu
i Zdroj: Nvidia
Pro lokální akceleraci AI potřebujete výkonnou grafickou kartu

Umělá inteligence se akceleruje přímo na grafické kartě, ideální jsou jádra Tensor na grafických kartách od Nvidie, ale zároveň budete potřebovat vysokou kapacitu paměti VRAM. Jak si ukážeme později, výkonnější grafiky umožní rozjet pokročilejší modely a zlepší plynulost i u těch středně náročných.

V tomto článku si vysvětlíme, jak funguje lokálně akcelerovaná umělá inteligence. Dále si popíšeme modely a způsoby, jak je rozchodit i na vašem počítači. Ukážeme si, co ony modely umí a jaké jsou jejich možnosti. To vše vztáhneme k výkonu dnešního běžně dostupného počítačového hardwaru. Článek tedy poslouží částečně jako přehled a částečně jako návod. Konkrétně popíšu, jak lokální akcelerace probíhá na grafické kartě střední třídy, modelu Nvidia RTX 4070 s 12 GB VRAM.

Rozdíly mezi lokální a cloudovou akcelerací AI

Tradičně byla AI zpracovávána na výkonných serverech v datových centrech, ale s pokrokem v hardwarových technologiích se otevírají nové možnosti pro lokálně akcelerovanou AI přímo na vašich počítačích. Jaký je rozdíl mezi těmito dvěma přístupy a jaké výhody přináší lokální akcelerace AI?

Cloudově akcelerovaná AI spoléhá na výpočetní výkon vzdálených serverů, často umístěných v cloudových datových centrech. Uživatelé posílají data přes internet na tyto servery, kde jsou zpracována pomocí specializovaného hardwaru a softwaru. Výsledky jsou pak odeslány zpět na zařízení uživatele. Tento přístup vyžaduje stabilní internetové připojení a může být náchylný na vytížení serverů.

Naopak lokálně akcelerovaná AI využívá výpočetní schopnosti přímo v počítači, zejména akcelerátory na grafice. Ty mohou zpracovávat komplexní AI algoritmy bez potřeby připojení k serveru. Tento model umožňuje rychlejší zpracování dat a poskytuje větší soukromí.

Hlavní výhodou lokálně akcelerované AI je soukromí. Data zůstávají na zařízení a nejsou odesílána přes internet, což minimalizuje riziko neoprávněného přístupu nebo úniku citlivých informací. To je obzvláště důležité v oblastech, kde se pracuje s osobními nebo důvěrnými daty. Také to zajistí, že na zaslaných datech nejsou trénovány další modely AI.

Další výhodou je absence tokenů. Když požadavky posíláte na servery, ty musí zvládat velký nápor, takže jejich provozovatelé omezují přístup pomocí tokenů. U lokální AI jste ale omezení jen svým výkonem a můžete generovat text či obrázky, jak dlouho chcete.

Lokální akcelerace také znamená nezávislost na internetovém připojení. Aplikace mohou fungovat i v oblastech s omezeným nebo žádným přístupem k internetu, což rozšiřuje jejich použitelnost v odlehlých oblastech nebo v situacích, kdy je připojení nestabilní.

Velikost modelů

Před tím, než se podíváme na samotné modely, si ještě musíme vysvětlit dvě věci. Tou první je, že samotný model není obyčejný program, který si stáhnete do počítače, nainstalujete a spustíte. Přímá instalace zahrnuje stáhnutí modelu z Git Hubu a následné dostahování mnoha doplňků pro plnou funkčnost.

Alternativně se dají využít různá prostředí, tedy uživatelská rozhraní, která zároveň poskytují modelům vše pro jejich funkčnost. U nich už je uživatelská přívětivost lepší, protože typicky pracujete v určitém uživatelském rozhraní, do něhož si jednoduše přidáte různé modely. Ty jsou primárně určeny pro serverové využití, takže pro svou funkčnost potřebují další softwarové komponenty.

Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit
i Zdroj: PCTuning za pomocí Stable Diffusion
Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit
i Zdroj: PCTuning za pomocí Stable Diffusion
Jak jednoduše na lokálně akcelerovanou AI. Ukážeme, co umí i jak ji zprovoznit
i Zdroj: PCTuning za pomocí Stable Diffusion

Takovéto krajinky si můžete velmi snadno vygenerovat i na svém počítači

Tato prostředí jednotlivé modely obalují nejen přívětivou uživatelskou nadstavbou, ale i další funkčností. Například umožňují procházení lokálních souborů, běžně totiž model pracuje pouze s vlastními daty.

Samotné modely mají jeden klíčový údaj, a to počet parametrů v miliardách, což se značí jako číslo a písmeno „B“. To udává komplexnost daného modelu, jeho nároky na výkon a kapacitu VRAM, případně to nepřímo řekne, kolik místa v úložišti model zabere.

Můžete se setkat i s tím, že jeden vývojář poskytuje více verzí stejného modelu. Například model llama 3.1 můžete stáhnout ve verzích 8B, 70B a 405B. Orientačně modely okolo 10B zvládne počítač střední třídy, okolo 20B počítač vyšší střední třídy a pro notebooky se doporučují modely s jednotkami B.


Předchozí
Další
Reklama
Reklama

Komentáře naleznete na konci poslední kapitoly.

Reklama
Reklama