Zpět na článek

Diskuze: Zákeřný útok dvoujádrem Phenom II

Nejsi přihlášený(á)

Pro psaní a hodnocení komentářů se prosím přihlas ke svému účtu nebo si jej vytvoř.

Rychlé přihlášení přes:

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 12:43

Komentáře tohoto uživatele máš zablokované.

:D zakerny utok :D co je na tom zakerne, nejak som nepostrehol
- Dominik

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 14:00

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace na roote je analyza
http://www.root.cz/clanky/pameti-ctyristakrat-delsi-latenci-nez-procesory/

Ktora jasne hovori, ze AMD ma stale vacsi hruby vypoctovy vykon ako Intel s vynimkou P4 Willamette a Northwood, ktore mali dvojnasobny takt ALU oproti zvysku CPU.
Co AMD bzrdi je
1. nemoderne a nefektivne napiasny kod v Asembleri
2. 1pass cache flush

a zvacsienie L3 chache pri rovnakom pocte jadier sposbim, ze 1pass chache flus sposobi staru vzkonu na 4 takty namiesto 10 taktov pri mensej cache.

Zakernost riesenie je v tom, ze vacsou cache AMD znemozni kompilatoru umyslene sposobovat spomalenie AMD vkladanim kodu sposobujuceho 1pass cache flush.

V nanlyze su zasadne veci

Když ale programuji, tak mě zajímá, jak dlouho různé operace trvají, abych mohl program udělat co nejrychlejší. Částečně se to dá zjistit z datasheetu procesoru, ale na opravdovou výkonnost počítače má vliv ještě chipset a paměti, a proto jsem napsal program, který tuto rychlost zkusí přibližně změřit

Latency je čas, za jaký bude k dispozici výsledek, od doby, co instrukce načetla operandy, měřený v počtu taktů. V jednoduchých případech odpovídá délce pipeline zkrácené o načítací a dekódovací část.

Repeat Rate, někdy též zvaný Throughput. Říká, kolik taktů průměrně uplyne, než mohu spustit tutéž instrukci znovu (s jinými daty). Když například pracují všechny tři sčítačky zároveň, dostávám repeat_rate 1/3.

Když kompilátor optimalizuje nějaký program, měl by ideálně vědět víc než jen tato dvě čísla

Pro naše účely však postačí, když určíme špičkovou výkonnost procesoru pro některé často používané operace

Kromě měření operací které něco počítají, budeme také měřit, jak dlouho trvá, než dostaneme data z paměti. Nejprve jak dlouho trvá MOV dat z L1-cache. Alokujeme si nevelké pole. Toto pole vynulu1pass cache flushjeme a pak ho dvaatřicetkrát přečteme. Tím procesor pochopí, že ho má držet v L1-cache. Pak následuje test:

Na první pohled je vidět převaha AMD v množství vykonané práce na takt procesoru (zvláště u násobení a dělení). Zajímavou výjimkou je počítač VICTORIA (Intel P4), který dovede provést dvě závislá sčítání během jednoho taktu. Je to tím, že jeho sčítačka umí pracovat jak v náběžné, tak i v sestupné hraně hodin. V případě, že jsou data nezávislá, už lepší není, protože dovede spustit stejně jen tři instrukce zároveň, což dává stejný výkon, jako má většina ostatních procesorů.

Je vidět, že i FPU jednotka je u AMD lepší, jelikož je celkově rychlejší pro závislé instrukce a pro nezávislé má dokonce repeat-rate pro násobení rovno jedné. I nejlepší Xeon, který jsem testoval, měl repeat-rate dvě (nicméně Intely můžou být lepší v SSE, což jsem neměřil).

Řádek 00 imul testuje rychlost násobení „nula krát nula“. Na některých starších procesorech (i386) nebo třeba na ARM-7TDMI závisí doba násobení na číslech, která násobíme, přičemž 00 je nejrychlejší. Je vidět, že u nových procesorů tomu tak není.

Je pozoruhodné, že RDTSC trvá u některých Intelů až sto taktů. Přitom nevidím důvod, proč by musela být delší než jeden takt, když je to vlastně jen přečtení registru TSC čítače do %edx:%eax.

Řádek NaN+x fadd udává dobu instrukce fadd, která dostala jako operand NaN (Not a Number - výsledek operace 0/0). Jak je vidět, u AMD je pak latence (ale nikoliv repeat-rate) o jeden takt delší. Naproti tomu u Intelu provedení jedné takové instrukce může trvat až 1100 taktů (počítač GAIA). Důvod je mi neznámý

Dále je vidět, že novější Intely (FIREBALL1) mají chytřejší cache, která se nedá vyprázdnit pomoci „1pass cache flush“, kdežto AMD se takto nechá zmást. Sice má SOL5 již určitý náznak zlepšení, ale k FIREBALL1 má ještě daleko.

Zajímavý je repeat-rate 0,56 pro čtení z L1-cache u počítače SOL5 (a 0,65 pro OLDATHLON). Znamená to, že se většinou podařilo v (*) provádět všechny tři instrukce zároveň. Intely toto neumějí.

Ještě zajímavější ale je, že starší verze testovacího programu, která pro přesun dvou čísel v (*) místo tří instrukci používala čtyři tímto způsobem (před vstupem do bloku bylo %esi=%edi+%ecx):

movl (%edi), %eax

addl %ecx, %edi
movl (%esi), %ebx
addl %ecx, %esi

dávala následující výsledky:

Je vidět že zde už se AMDčku tolik nedařilo spouštět čtení najednou, na druhou stranu ale máme téměř dvojnásobné zrychlení čtení z paměti, a to u všech procesorů. Důvod pro toto podivné chování neznám, mám hypotézu, že procesor nebo řadič paměti možná dělá spekulativní načítání dat. Když mám čtecí instrukce rozmístěné tak, že se provádí jedna za druhou s rostoucími adresami, tak z toho pozná, jakou asi další část budu z paměti chtít, a snaží se ji připravit do cache.
- fotoba

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 16:32

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace Fantasmagorie. Na platformě x86 se už 20 let řeší, že CPU se musí přizpůsobit programům a ne obráceně, to se zákazníkům vůbec nelíbí. Prostě je třeba si přiznat, že nyní Intel zvládl optimalizace líp.
Samozřejmě doufám, že AMD postaví důstojnou konkurenci i7, AMD to jistě dokáže.
- rnb

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 14:27

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace Prosimtě co sem furt vypisuješ ty svoje romány. Jistě, AMD by bylo nejvýkonnější navěky věků, jen kdyby ho nebrzdili zlí programátoři podplacení Intelem že. Mám pocit, žes kdysi psal, že učíš ve škole IT. Je vidět, že učitelé informatiky sou na Slovensku asi dost přeplacení, když mají čas v pracovní době sepisovat ódy na AMD.
- Smarty

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 22:16

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace @Smarty: opak je pravdou ale ja ucim prave paralene programovanie pod Unixom a tam je AMD lepsie, lebo sa pouziva gcc, ktore je pro AMD
- fotoba

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 22:13

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace @Hirogen: ale to je vlastne to iste len typtestov je iny

lev cize ALU je to iste ako na roote a aj dlc ukazuje to iste...
jedine rrt (asi SSE)dava ine vysledky ako na roote

- fotoba

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 18:31

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace @rnb: AMD by hlvne melo prijit s poradnym kompilatorem, ktery vymackne z jejich procesoru maximum a pritom nebude znevyhodnovat konkurenci, tak jak to dela kompilator intelu.
- Chroustostroj

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 12:45

Komentáře tohoto uživatele máš zablokované.

Já myslím, že svoje jako konkurence předvádějí trojjádra vůči Intel dvoujádrům. Alespoň konečně bude mít AMD po delší době tak velký výběr modelů, jak už dlouho ne (to se mi např líbí na Intelu, od celeronu přes solidní pentia dual core, core duo řady 7000 a 8000 k nižším 4-jádrům q8000 až po výkonná 4-jádra q9000 a maximální výkon v podobě i7. A to jsme nemluvil o některých již starších prodávaných CPU řady e4000, Q6600 apod)
- Flank3r

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 14:53

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace tak tak, to podobné vlastně je u Phenomů, liší se jen frekvencemi a L3 cache. Je to pochopitelné...To stejné platí pro Intel, frekvence, ořezaná L2 cache.
- Flank3r

Reklama
Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 13:07

Komentáře tohoto uživatele máš zablokované.

Jen aby to nebyl Deneb se 2-ma nefunkčníma jádrama (6MB L3 je na dvoujádro docela dost - zvyšuje neúměrně výrobní cenu - konkurenceschopnost - ?spotřeba?). Jestli není výtěžnost výroby Denebu moc dobrá, nebylo by se co divit, že by AMD chtělo prodat každej aspoň trochu funkční čip (Intel se tuhle strategii už taky chystá použít - viz. dřívější novinka).
Pro nás je ale stejně nejdůležitější, aby CPU fungovalo, mělo výkon a nestálo moc. Takže by to vlastně bylo stejně jedno...
- Carlos.H

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 13:26

Komentáře tohoto uživatele máš zablokované.

No tak pokud bud mit zas TDP 95, nebo dokonce 125W a frekvenci pod 3GHz tak to s pokořením C2D nevidím optimisticky. Na druhou stranu, mozna by mohlo jit frekvencne o neco vys, nez deneb. Takovy Callisto na 3,3GHz by mohlo konecne tem C2D od zleho Intelu utnout tipec jednou pro vzdy :)
- Chroustostroj

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 16:27

Komentáře tohoto uživatele máš zablokované.

@Uživatel bez registrace To ano, ale kdyz se podivate na X2, X3 a X4 zalozene na PI tak jsou na tom vsechny se spotrebou podobne. Deaktivovana jadra se sice nepouzivaji, ale na prikonu to znat moc neni. C2D naproti tomu zadne jalove obvody nemaji, protoze jsou vyrabena primo jako C2D.
- Chroustostroj

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 13:30

Komentáře tohoto uživatele máš zablokované.

Kurňa a kde je tá sľubovaná 3 časť Vlivu CPU na herní výkon.
- lm

Reklama
Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 17:21

Komentáře tohoto uživatele máš zablokované.

"podle marketingového oddělení červených" jakych cervenych myslite? Jestli AMD, tak ti jsou "zeleni"...
- DevTom

Uživatel bez registrace
Uživatel bez registrace
Level 1 Level 1
17. 2. 2009 18:38

Komentáře tohoto uživatele máš zablokované.

.... za nekolik mesicu - to je jako kolik? Dva, pet, sedm, .... ? Ano, AMD po nekolika letech predezene C2D. Vyborne, tleskam. Otazkou je, jestli za tech par mesicu nebude vyhodnejsi koupit rovnou ctyrjadro, ktere, pokud bude AMD opravdu tak super vykonne, predpokladam Intel slusne zlevni. Prece jenom ma de facto pripravenou architekturu Nehalem a nez nechat jiz vyrobena C2Q na skledech neprodejna, umim si predstavit nejake ty 20-25% slevy. Parada, AMD, je tak dal, potrebuju novy C2Q Intel a takhle by mohl vyjit dost levneji.
- l.jelinek

Reklama
Reklama