Architektura Fermi - Nvidia GF100 se představuje | Kapitola 6
Seznam kapitol
Nová generace grafických karet Nvidia byla už několikrát odložena a každá novinka vzbudí rozruch. Velká většina dosavadních informací byla spíše spekulativního rázu, ale ve dnešním článku vám konečně můžeme nabídnou konkrétní fakta o architektuře a vlastnostech čipu. Získali jsme je přímo na konferenci Deep Dive v Las Vegas.
Na kvalitě obrazu a vyhlazování také NVIDIA hodně zapracovala, hlavně vylepšením ROP jednotek. Jeden ROP cluster má osm ROP jednotek, celkový počet je 64 proti 32 u jádra G200. Zdvojnásobení počtu jednotek se musí samozřejmě projevit i na možnostech karty, také tomu tak je. Jedna ROP jednotka v jádru GF100 zvládne 32-bit integer pixel za jeden takt, nebo FP16 pixel za dva takty. Zpracování FP32 pixelu jí bude trvat čtyři takty. Atomické operace jsou až dvacetinásobně rychlejší než u G200, operace v paměti pak téměř osmkrát rychlejší.
U jádra G200 docházelo ve většině her k velkým propadům výkonu se zapnutým vyhlazováním 8xMSAA. To se díky vyššímu počtu ROP jednotek a novým kompresním algoritmům podařilo u GF100 vyřešit. V režimu 4xAA je GF100 o 60 procent výkonnější než G200, u vyhlazování 8xAA je to rozdíl 130 procent. Dopad na výkon 4xAA a 8xAA je u GF100 jen 9 procent.
Nově v jádru GF100 podporují texturovací jednotky DirectX 11 Gather4 funkci. Výrobce tuto funkci implementoval přímo do hardware, což by mělo razantně vylepšit práci se stíny, ambient occlusion a dalšími post procesing algoritmy. S Jittered samlingem by měly být stíny hladší a filtrování efektivnější. Funkčnost je demonstrována na stínech lodi v testu 3D Mark 06.
Nové vyhlazování 32xCSAA
Další novinkou je režim vyhlazování 32xCSAA, který by měl poskytnou co nejvyšší možnou kvalitu zobrazení. Běžné dnes je, že na vegetaci se používá postup alpha-to-coverage a zvýraznění hran je závislé na počtu krycích samplů. Pokud jsou krycí samply jen čtyři nebo osm, dochází k rozmazání a rozdvojování zejména textur blíže k obrazovce. S novým režimem a třiceti dvěma krycími samply by se měl tento jev znatelně potlačit.
Zde je porovnání kvality vyhlazování 16xCSAA (8+8 samplů) jádra G200 a 32xCSAA (8+24 samplů) u GF100.
Vylepšení se také dočkal TMAA (Transparency Multisampling), který také těží z CSAA. TMAA najde uplatnění hlavně v DirectX 9 hrách, kde API nepodporuje alpha-to-coverage techniku. TMAA zde konvertuje starší techniku alpha-test do alpha-to-coverage což zaručí spolu s CSAA mnohem lepší kvalitu obrazu. Ostatně to dokládají dva obrázky.
Poslední obrázek ukazuje pokles výkonu vyhlazování 8xMSAA a 32xCSAA u karty s jádrem GF100. Takto vysoké vyhlazování má díky menší náročnosti 32xCSAA krycích samplů na paměť, vliv na výkon jen 7 procent proti druhého režimu.