Wybierz stronę

Przetestowaliśmy Bulldozer: FX-8150 i trzy płyty główne 990FX na stanowisku testowym

Przetestowaliśmy Bulldozer: FX-8150 i trzy płyty główne 990FX na stanowisku testowym

Technologia

Chipy są wykonane na węźle SHP GlobalFoundries ’32nm. W przypadku buldożerów wcześniej wprowadzony SOI został połączony z Intel HKMG (High-K Metal Gate), co może pomóc w zwalczaniu prądów upływowych. Architektura jest dobrze zaprojektowana, aby osiągać wysokie częstotliwości taktowania („Speed ​​racer”), co sprawia, że ​​gama modeli będzie prawdopodobnie całkowicie pozbawiona produktów poniżej 3 GHz. Wszystkie jednostki centralne w starym języku to Black Edition, dlatego nie jest to teraz specjalnie oznaczone.

W tym momencie zróbmy mały objazd i spójrzmy również na drugą stronę medalu. Najszybszy czterordzeniowy procesor Phenom II taktuje z częstotliwością 3,7 GHz, a oparty na sześciordzeniowym chipie Thuban 1100T taktuje z częstotliwością 3,3 GHz. Dla porównania, podstawowy strzał 32 nm AMD FX-8150 jest prawie rozczarowująco niski i tylko 4,2 poziomy Turbo Core 10 GHz są akceptowalne, co natychmiast obiecuje nadwyżkę mocy 15-3,5% (nie). XbitLabs przewietrzyło rok temu, że Bulldozer przekracza zegar XNUMX GHz, który się zbiegł, ale pomimo serii wpadek. Wydaje się słuszne założenie, że nadal istnieją poważne problemy z produkcją i wydajnością nowej armaty, co również ma znaczący wpływ na osiągi.

amd_bullldozer_htekonysag
Druga liczba całkowita zwiększa rozmiar modułu tylko o 12 procent. [+]

Bazując na wieloletnim doświadczeniu narodziła się nawet podstawowa koncepcja, która opierała się na następującym: jednostki centralne wykonują operacje w punktach stacjonarnych w średnim tempie ponad 80 proc. Z tego widać, że obliczenia zmiennoprzecinkowe są znacznie mniej obecne w życiu „stonogi”. W związku z tym w projekcie połączone są dwa rdzenie całkowite, które mają własną pamięć podręczną pierwszego poziomu, ale już muszą dzielić pamięć podręczną drugiego poziomu i jednostkę zmiennoprzecinkową. AMD nazwało jednostkę jako moduł.

amd_bullldozer_one_module
Jeden moduł [+]

Według wewnętrznych pomiarów druga liczba całkowita zasadniczo zwiększa rozmiar modułu w znikomym stopniu, w przeciwieństwie do tego może idealnie spowodować wzrost wydajności nawet o 80%. Część podstawowej pamięci podręcznej odpowiedzialna za dane jest bezpośrednio połączona z procesorami (rozmiar 16 KB, zegar opóźnienia 4), ale 64 KB pamięci podręcznej przeznaczonej do przechowywania instrukcji jest już współdzielone między całekami.

1_moduł_co_który
Kopanie głębiej [+]

Bazując na wynikach testów, pamięć podręczna danych L1 jest nie tylko za mała, ale wręcz powolna, a to razem nie jest zbyt dobrą kombinacją. Rozmiar pamięci drugiego poziomu współdzielonej w module jest zadowalający, ale jej opóźnienie jest wysokie, 25-27 cykli. Łatwo sobie wyobrazić, że większa pamięć podręczna L1 i szybszy L2 (12-15 cykli) poprawiłyby wydajność procesora o 10-20%.

Nic dziwnego, że osiągnięcie 8 MB L3 również nie odbywa się z prędkością światła (65 cykli). Podsumowując, system cache Bulldozer nie będzie ósmym cudem świata.

instrukcje
W zestawie instrukcji labirynt [+]

Bulldozer ma obecnie najszerszy zestaw obsługi zestawów instrukcji: MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ i oczywiście rozszerzenie 64-bitowe. Spośród dwóch nowości (FMA4, XOP), FMA4 ma duże znaczenie na rynku HPC, a XOP oferuje niewielką przewagę nad aplikacjami multimedialnymi. O ile nam wiadomo, najnowsza wersja x264 obsługuje już nowe zestawy instrukcji. Nieaktualne 3DNow! wsparcie zostało przerwane, myślę, że nie powoduje to u wielu czytelników nieprzespanych nocy.

Wiadomo, że używa się Intel VT do uzyskiwania dostępu do pamięci wirtualnej x86. IOMMU znacznie zwiększa wydajność wirtualizacji systemu, jednak, co zaskakujące, zaawansowane rozwiązania Intela (Core i5-2600K, i7-2600K) nie obsługują tej technologii, a to „czarne kółko” obejmuje obecne rozwiązania Sandy Bridge E. Ponownie dodatkowa usługa w porównaniu z bezpośrednią konkurencją, chociaż jej przydatność dla przeciętnego użytkownika jest wątpliwa.

40
Turbo Rdzeń w teorii [+]

Turbo Core został również udoskonalony, współpracując z wieloma bramkami zegarowymi, a nawet lepiej przystosowany do różnych stopni wykorzystania. Jeśli wszystkie rdzenie są aktywne, ale jednostki zmiennoprzecinkowe nie są aktualnie używane, zadziała zegar Turbo Core 2.0. Procedura dynamicznie zmienia sygnały zegarowe rdzeni w zależności od obciążenia, nieaktywne zasoby, moduły i komponenty wewnątrz modułu mogą zostać odłączone, więc w tym obszarze nie zrozumiałbyś skargi do frontu domu. Niestety, strona oprogramowania całkowicie wrzuca cię do zupy.

w praktyce
Praktyczna realizacja [+]

Harmonogram Windows 7 nie jest, delikatnie mówiąc, najwydajniejszym sposobem przydzielania zadań, ponieważ często zmienia przydzielanie zadań między rdzeniami. Kolejna wersja systemu operacyjnego naprawi problem i niedługo zostanie wykonana poprawka dla tego systemu, więc - w skrajnych przypadkach może to być 15-25 procent - wkrótce uzyskamy 2-10% większą wydajność. Kolejną bardzo miłą korzyścią będzie zmniejszenie poboru mocy w stanie bezczynności o 4-5 watów, ponieważ moduły mogą dłużej oszczędzać.

spychaczwin8_and_bf3
„Nie patrz na swoje zęby za dar wydajności” [+]

spychaczbf3betafx

„Transformacja” w Battlefield 3 [+]

Battlefield 3 dobrze pokazuje również, jak bardzo pewna optymalizacja pomaga procesorowi. W tej grze najmocniejszy obecnie procesor z serii FX może osiągnąć wydajność Core i7-2600k.

Procesory z serii FX są dostarczane z obudową Socket AM3 + i są umieszczone na płytach głównych AMD z chipsetem serii 9. Orientację ułatwia również kolor gniazda, który w większości jest czarny. Aby zaimplementować nieskończenie dźwiękową platformę Scorpius, potrzebujemy procesora z serii FX, płyty głównej z chipsetem serii 9 oraz karty graficznej Radeon HD 6000. Bulldozer ma dwukanałowy kontroler pamięci DDR1866, który obsługuje moduły 3 MHz.

fenomu_folulk

AMD FX-8150 z Phenom II X4 970 BE - od góry [+]

Podsumowując, chcielibyśmy dodać kolejny ciekawy dodatek. Poważne kontrowersje wzbudził fakt, że praca wykonywana na godzinę (instrukcje na cykl) przez procesory oparte na Bulldozer średnio nieco spadła w porównaniu z poprzednikiem. Niektórzy od razu wyobrażają sobie upadek architektury, inni wymieniają podobne przykłady z przeszłości. W związku z tym, jak zawsze, ograniczmy się do faktów. Współcześni programiści coraz częściej zdają sobie sprawę z zalet optymalizacji wielordzeniowej. Przy 8-cylindrowym silniku, który w zasadzie zapewnia dobre osiągi, rzadko zastanawiamy się, co może zrobić z 1 cylindrem.

fenomenalny

AMD FX-8150 z Phenom II X4 970 BE - dół [+]

Przykład nie jest najlepszy, ale może rzucić światło na sedno sprawy. Nie twierdzimy, że optymalnie wykorzystamy osiem rdzeni całkowitych, ale w tym przypadku Turbo Core 2.0 dąży do najwyższego możliwego zegara (4,2 GHz). To, co jest dostępne tylko w przypadku K10.5 za cenę „krwawego potu”, jest tutaj uważane za „zegar bazowy”. Nie ma również wątpliwości, że implementacja AVX, FMA i XOP kosztowała znaczny zestaw tranzystorów. Podstawy architektury są używane w kilku segmentach (serwer, komputer stacjonarny), więc wydawało się to obowiązkowym krokiem, ale dziś widzimy jeszcze mniej jej zalet (zwłaszcza w środowisku desktopowym).

gniazdo_2k

Leżąc w łóżku [+]

Idealnie (FMA4 + AVX), Bulldozer naprawdę czuje się bardzo elementarny, zapewnia zaskakującą wydajność i od razu stawia sprawy w innym świetle. Według pomiarów niemieckiego HT4U, podczas aplikacji renderującej C-Ray 1.1, AMD FX-8150 działa w tych samych 15 sekundach, co Intel Core i7 990X. To dokładnie połowa czasu, który zajęło procesorowi AMD Phenom II X6 1100T zadanie. Zaznaczylibyśmy w nawiasach, że ważyliśmy również drugą skrajność, Super PI.