Nvidia Turing: nové technologie pro chytřejší rendering
i Zdroj: PCTuning.cz
Hardware Článek Nvidia Turing: nové technologie pro chytřejší rendering

Nvidia Turing: nové technologie pro chytřejší rendering | Kapitola 2

Adam Vágner

Adam Vágner

78

Seznam kapitol

1. Architektura Turing oficiálně 2. Nové Streaming Multiprocesory 3. Tensor Cores, GDDR6, GPU Boost 4. Pokroky ve stínování (shadingu) 5. Deep Learning, NVLink, USB-C, výstupy
6. GeForce RTX 2080 Ti vs. GTX 1080 Ti v parametrech 7. GeForce RTX 2080 vs. GTX 1080 v parametrech 8. GeForce RTX 2070 vs GTX 1070 v parametrech 9. Snímky z prezentace

Dnešním dnem končí embargo na detaily k nové architektuře Turing a podrobnosti o nových funkcích, které karty nabízejí. Asi jen s málokterou premiérou za celou dobu historie grafických 3D akcelerátorů představili výrobci karet tolik nových technologií najednou.

Reklama

Nové Streaming Multiprocesory

Turing přichází s přepracovanými streaming multiprocesory Turing SM, které dosahují výrazného nárůstu výkonu. Oproti Pascalu by měly mít o 50 % vyšší výkon. Zásluhu na tom mají hlavně dvě klíčové změny v architektuře.

První změnou je další přidaná datová cesta, díky níž mohou běžet souběžně celočíselné výpočty i výpočty s plovoucí desetinnou čárkou, zatímco u Pascalů se oba typy výpočtů vzájemně blokovaly.

Nvidia Turing: nové technologie pro chytřejší rendering
i Zdroj: PCTuning.cz

Na jeden tedy TPC připadají dva streaming multiprocesory. Každý z nich má 64 jader pro FP32 a 64 jader pro INT32. Pascal GP10x měl naproti jen jeden streaming multiprocesor a v něm 128 jader pro FP32. U Turingu už mohou běžet výpočty FP32 a INT32 souběžně a SM mají nezávislý scheduling vláken podobně jako čipy Volta GV100.

Uvnitř každého Turing SM je rovněž osm Tensor Cores schonpých provádět různé typy výpočtů a jedno RT Core pro Ray Tracing.

Turing SM je rozdělený do čtyř bloků. V každém z nich je 16 jader FP32, 16 jader pro INT32, dvojice Tensor Cores, jeden warp scheduler a jedna dispatch jednotka. Každý blok má ještě novou instrukční cache L0 a 64KB registr.

Všechny čtyři bloky sdílejí 96KB paměti kombinující L1 cache a sdílenou pamět. Při tradiční grafické zátěži se 64 KB využito jako paměť pro grafické shadery a 32 KB slouží jako texture cache a register file spill area. Při výpočtech může být rozdělená na 32 KB sdílené paměti a 64 KB L1 cache, anebo na 62 KB sdílené paměti a 32 KB L1 cache.

Schéma jednoho streaming multiprocesoru vypadá takto:

Nvidia Turing: nové technologie pro chytřejší rendering
i Zdroj: PCTuning.cz

Tou druhou změnou navyšující výkon streaming multiprocesorů je přepracovaná paměťová cesta v SM, která unifikuje sdílenou paměť, cache pro textury a memory load caching. Při běžné zátěži se to projeví dvojnásobným nárůstem její propusnosti a dvojnásobkem dostupné L1 cache.

Nvidia Turing: nové technologie pro chytřejší rendering
i Zdroj: PCTuning.cz


Předchozí
Další
Reklama
Reklama

Komentáře naleznete na konci poslední kapitoly.

Reklama
Reklama