Když hloupý učí hloupého: Hloupne AI, hloupnou lidé

Seznam kapitol

1. Co učit a na čem učit 2. Neobvyklá řešení obvyklých problémů 3. Řetězová reakce 4. V bublině 5. Odříznutí od zbytku světa

Pokusy s tím, že AI učí jinou AI, nevypadají úplně dobře. To by ale asi nepřekvapilo žádného rodiče, který nechává vzdělávání svých ratolestí nevzdělancům na TikToku a dalších sociálních sítích.

Reklama

V poslední době se množí informace o tom, že nové verze ChatGPT nejenže odmítají odpovídat na zvídavé dotazy, jako je „Jak vyrobit vysoce efektivní atomovou bombu?“ a dělat vtipy na adresu náboženství, ale také se pozorovatelně zhoršuje ve schopnosti řešit matematické problémy.

Problém je v tom, že model OpenAI je přes své vzletně otevřené jméno (jaká ironie!) značně uzavřený, šéfové tvrdí, že jejich model nehloupne, ale nikdo netuší, co s ním vlastně dělají, jak vypadá a proč se děje to, co se děje. Jisté je, že řada držitelů autorských práv tlačí na to, aby byl jejich obsah vyňat z učení, řada států tlačí na to, aby AI neodpovídala na určité okruhy otázek – a oni zřejmě jak upravují znalostní bázi, tak i implementují nějaké mechaniky, které by zajistily, aby AI odpovídala představám regulátorů. Jak s tím souvisí to, že se jejich upravené modely výrazně zhoršily v práci s prvočísly, netuším, otázkou je, jestli to vědí alespoň experti od OpenAI.

V současnosti se řeší alternativní modely, jako je Llama2, což je Open Source model, který si můžete naučit sami, a dokonce ho používat i komerčně. Hardwarové nároky zmiňují, že pro menší modely by mohly stačit i grafiky s 8 GB VRAM, takže jestli bádáte, co dělat se svou grafikou GeForce RTX 4060 Ti 16 GB, tak na to učení by se extra paměť mohla hodit, protože doporučené minimum je 10 GB VRAM.

Momentálně se nacházíme uprostřed další krize grafických karet, kdy vysoké ceny grafik částečně souvisí s tím, že pro Nvidii je jednoduše výnosnější vyrábět specializovaná AI řešení, jako je systém Nvidia DGX A100. Tento stroj má výkon 5 petaflops, obsahuje 8 čipů Nvidia A100 Tensor Core GPU a 640 GB grafické paměti. Práci koordinují dva procesory AMD EPYC Rome 7742 s celkem 128 jádry a 2 TB operační paměti. Stroj je doplněn šesti NVSwitchi s propustností 4,8 TB/s a masivní síťovou výbavou s osmi porty ConnectX-6 a propustností 200 GB/s.

Takovýhle systém vás přijde na 200 000 dolarů – a je jich nedostatek, poptávka firem překračuje kapacitu je vyrábět – takže asi chápete, že nějaké skuhrání ve stylu „grafiky jsou drahé“ jsou lehce pod jejich rozlišovací schopností. Pravda, dnes není po grafických kartách až taková poptávka jako za kryptopeaku, ale ukazuje se, že nás možná čeká vlna zájmu o akcelerátory AI, a není tedy důvod snižovat jejich ceny.

Problém je naopak nedostatek opravdu výkonných řešení pro učení AI. S jedním takovým přichází firma Cerebras, která se zaměřuje na wafer-sized engines, tedy na čipy zabírající celou plochu 300mm waferu. To je docela šílené – a klidně by dělali i větší, kdyby byla technologie pro 450mm wafery k dispozici.

Jejich řešení se jmenuje Cerebras Wafer Scale Engine 2 (WSE-2). Ano, je to už druhá generace – a nyní hodlají postavit celkem osm počítačů Condor Galaxy 1 AI Supercomputer, z nichž každý má 64 nodů, celkem 54 milionů AI cores, kumulovaný výkon 4 exaflops a 82TB paměť. Tři taková monstra mají být zapojena do jednoho virtuálního celku v USA, přičemž překonávají řešení Nvidie jak efektivitou, tak celkovým výkonem.

Předchozí

Další

Reklama