Wybierz stronę

Wypróbowane: AMD GCN — przedstawiamy Radeon HD 7970 i HD 7950

Nadszedł czas, aby w końcu przedstawić architekturę AMD GCN (Graphics Core Next) i jej dwóch najpotężniejszych przedstawicieli, Radeona HD 7970 i Radeona HD 7950.

Logo artykułów GCN

Spośród HD 7950 od razu oddaliśmy hołd dwóm z nich, więc mieliśmy również okazję przetestować CrossFireX, a także wykonaliśmy dostrojone pomiary obiema kartami. Oczywiście wysłaliśmy również kilku kierowców przeciwko dwóm nowym działam, aby zobaczyć, jak bardzo karty przyspieszyły w porównaniu z poprzednimi generacjami GeForce i Radeonów. 


Zanim przejdziemy do uczestników i testów, przyjrzymy się bliżej architekturze GCN i przejmiemy funkcje HD 7970 i HD 7950.

 wszystkie pudełka na karty 2k

 Rdzeń graficzny Dalej

W maju 2007 r. AMD zaprezentowało kartę graficzną Radeon HD 2900 XT, która została już zbudowana na zunifikowanej architekturze cieniowania. Jak się okazało, projekt miał wiele wad, ale problemy zostały prawie całkowicie wyeliminowane do czasu serii Radeon HD 4000, dając firmie przyczółek na rynku kart graficznych do komputerów stacjonarnych. W tym momencie widać było, że teraz potrzebne są radykalne zmiany. Seria HD 6900 „Cayman” jest uważana za pierwszy krok. Tutaj poprzednie 5-drożne procesory superskalarne (VLIW5) zostały zastąpione przez 4-drożne procesory (VLIW4), a Cayman był pierwszym chipem obsługującym wiele niezależnych strumieni instrukcji. Inną dużą innowacją było wprowadzenie dwóch „silników graficznych”, które podwoiły wydajność konfiguracji trójkąta – zwiększając moc teselacji – oraz liczbę niektórych elementów (rasteryzator, hierarchiczny Z, tesselator). Stał się dzisiaj przedmiotem naszego następnego testu poziomu. Dzięki architekturze zwanej Graphics Core Next (GCN), tablice shaderów, które współpracują z używanymi do tej pory instrukcjami VLIW, stały się przestarzałe, zastąpione przez tak zwane jednostki obliczeniowe (CU). GCN zadebiutował w rodzinie Radeon HD 7900 „Tahiti”.

19 m

Co ciekawe, ale nie zaskakujące, procesory graficzne Tahiti osiągnęły wyjątkową gęstość tranzystorów dzięki technologii produkcji pasma 28 nm TSMC – zawierają 365 miliarda tranzystorów na 4,3 milimetrów kwadratowych. Jedna jednostka obliczeniowa zawiera cztery karty SIMD i jedną jednostkę skalarną. Flagowy Radeon HD 7970 firmy AMD „Tahiti XT” współpracuje z 32 aktywnymi jednostkami CU, zakładając łącznie 2048 procesorów cieniujących (cztery 16-drożne karty SIMD, 64 jednostki ALU). Biorąc pod uwagę dotychczasowy postęp pokoleń nie wydaje się to na pierwszy rzut oka wartością wybitną, ale w trosce o lepszą wydajność i wykorzystanie, pragniemy już teraz zaznaczyć, że nie warto przypadkowo wyciągać daleko idących wniosków z ten jeden wskaźnik techniczny. Teoretycznie jednostka sterująca może wykonać tyle samo, co pojedyncza jednostka Cayman SIMD. Głównym problemem poprzednich generacji jest zależność danych (kolejne instrukcje zależą od siebie nawzajem od danych), co spowodowało gwałtowne wahania wykorzystania. Architektura GCN jest również krokiem naprzód w tej dziedzinie, ponieważ eliminuje wcześniej doświadczane zależności dzięki przetwarzaniu strumieniowemu. Korzyści są opisane tylko w nagłówkach: planowanie, debugowanie, szacowanie oczekiwanej wydajności i opracowywanie sterowników również stały się radykalnie prostsze i bardziej przejrzyste. 

24

36 mJednostka CU nie tylko zawiera cztery jednostki SIMD, ale ma również własny harmonogram, 340 KB pamięci buforowej i klaster teksturowania. Jest to suma rejestru wektorowego 4 × 64 KB, udziału danych lokalnych 64 KB, rejestru skalarnego 4 KB i pamięci podręcznej pierwszego poziomu o pojemności 16 KB. Powyższy obrazek pokazuje kolejny komponent, o którym zdecydowanie warto wspomnieć, a mianowicie tak zwany „Branch & Message Unit”, który odgrywa rolę w bardziej wydajnej kontroli programu.
Mając dotychczas informacje, przyjrzyjmy się ponownie kluczowym parametrom procesora graficznego „Tahiti XT”: 32 CU (2048 procesorów cieniujących, 128 SIMD), 128 jednostek teksturujących, 512 jednostek Load-Store i łącznie 8,2 MB pamięci podręcznej. Więc pozycja dziewczyny od razu się zmieniła, mimo że dopiero zaczynaliśmy się "rozbierać".

35 mCzołowy

Pod względem frontendu możemy zauważyć znaczne różnice w porównaniu z architekturą NVIDIA GF110. Zarządzanie zasadniczo nie odbywa się na poziomie CU. To zadanie jest wykonywane przez procesor poleceń i asynchroniczny aparat obliczeniowy (ACE). Chip otrzymał dwa silniki geometryczne, które oprócz Geometry-Assemblera, Vertex-Assembler, obsługują również tesselatory dziewiątej generacji. Komunikację z jednostkami CU ułatwia Global Data Share (GDS), za pośrednictwem którego jednostki te mogą również współdzielić dane między sobą. Sekcja frontendu zawiera dwa rasteryzatory - możesz zobaczyć układ poniżej.

37

ROP i interfejs pamięci
AMD Tahiti zawiera 8 klastrów ROP - w tym momencie znaleźliśmy dopasowanie z chipem Cayman. Każda taka „tablica” zawiera cztery jednostki ROP i 16 próbników Z. Należy wspomnieć, że każdy klaster otrzymał własną pamięć podręczną. Zaszła kolejna poważna zmiana: nie ma już bezpośredniego połączenia z kontrolerem pamięci. Ten ruch ma na celu poprawę elastyczności i użyteczności, co możemy zobaczyć w kontekście Pitcairn… ROP-y mogą zapisywać do 768 KB pamięci podręcznej L2, która z kolei może być odczytywana przez wiele jednostek. Interfejs pamięci otrzymuje radosny obraz. Sześć 64-bitowych kontrolerów pamięci ma łączną pojemność 384 bitów. Dodalibyśmy do tego tylko słowo. Wreszcie! Domyślny rozmiar pamięci wideo to 3072 MB, ale teoretycznie możliwe są również 1536 MB i 6 GB.

Mamy nadzieję, że nasi czytelnicy nie odbiorą tego w złym imieniu, ale w tym momencie wyrazimy naszą osobistą opinię na temat obszaru zaplecza. Związek między Bartsem, który spisywał się naprawdę dobrze, a chipem Cayman, który wykazał skromne wyniki, sugeruje, że „ogólnym problemem” z chipami AMD jest mała pojemność ROP. Tutaj również nie poczyniono postępów na Tahiti, a strony można by pisać z pewną przesadą na temat innych nowości w chipie. Rola ROP jest szczególnie widoczna podczas igrzysk, podczas zadań i aplikacji GPGPU stają się drugimi skrzypkami. Pewne jest też, że sekcja ta zużywa dużą liczbę tranzystorów, co oczywiście przekłada się również na wielkość chipa.

 

Dotychczasowe ulepszenia AMD w dużej mierze służyły potrzebom graczy. Teraz nastąpił obrót o co najmniej 90 stopni i stał się silnym skrzyżowaniem, aby sprostać potrzebom zawodowym, aby szerzej korzystać z GPU. Oczywiście nie stanowi to problemu, ponieważ w zasadzie mówimy o bardzo szorstkim poziomie wydajności, który z pewnością wytrzyma próby współczesnych gier przez kilka lat. Według plotek nie tylko AMD, ale także NVIDIA traktują ROP wąsko z Keplerem.

Godnym pochwały krokiem było rozszerzenie magistrali pamięci. W rzeczywistości projektanci nie mieli wyboru. Zegarów nie da się już znacząco zwiększyć, ale chip jest głodny danych. Naszym zdaniem sam ten ruch mógł zwiększyć wydajność podczas meczów nawet o 15 procent.

44DirectX 11.1 i PCI Express 3.0
Standard PCI-Express 3.0 zwiększa prędkość z 16 GB/s do 32 GB/s, podwajając szybkość transferu danych PCIe 2.0. Producenci płyt głównych natychmiast „ugryzli się w ten temat”, ale bez względu na to, jak bardzo chcą, przełącznik nie oferuje w tej chwili znaczącej przewagi. PCIe 3.0 to ważna broń z punktu widzenia marketingu, obowiązkowy standard dla AMD i NVIDIA oraz kolejna „pułapka na pieniądze” dla użytkowników.
DirectX 11.1 może rozpocząć swój podbój z następującym systemem operacyjnym Windows, który zawiera drobne poprawki i optymalizacje. Według oficjalnych materiałów możemy spodziewać się natywnego wsparcia stereo 3D i wydajniejszej rasteryzacji od nowego API. Niestety, być może najciekawszy punkt, który omawia, jak poprawić elastyczność i powszechną użyteczność sprzętu graficznego, nie został szczegółowo opisany.

31 m

Architektura Graphics-Core-Next wygląda ogólnie tak. Oczywiście chip nie tylko służy potrzebom graczy, ale ma też miejsce na profesjonalne zadania. Szczytowa wydajność obliczeń teoretycznych Tahiti (dla obliczeń o podwójnej precyzji) wynosi 947 GFLOP, czterokrotnie wyższa dla operacji zmiennoprzecinkowych o pojedynczej precyzji. Ponadto pamięci mają obsługę ECC, a GPU dobrze zna DirectCompute 11.1, OpenCL 1.2 C++ AMP API.27 Nowe funkcje: Zero-Core
Ogólnie rzecz biorąc, topowe drapieżniki Radeon HD 7900 są przyzwyczajone do spożywania tematu tabu, ale inżynierom AMD brakuje pomysłowości. Pomysł jest prosty, ale świetny, ale nie nowy. Jeśli zostawiasz komputer na dłuższy czas, ale z jakiegoś powodu nie chcesz go wyłączać, możesz pozostawić monitor tylko w trybie czuwania. Dzięki technologii ZeroCore Power, przy wyłączonym wyświetlaczu, cały kontroler graficzny może być odłączony od zasilania i w tej formie nie jest wymagane aktywne chłodzenie. Korzyści są przekonujące: zero hałasu, 3 waty poboru mocy. Dla wielu będzie to nieistotny czynnik, ale procedura dla czterokierunkowych systemów Crossfire wyłącza niepodstawowe karty wideo, znacznie obniżając rachunki za energię elektryczną – chociaż każdy, kto myśli o takim zestawie, niewiele robi, aby rozwiązać problem efektywności energetycznej.

21

20

Eyefinity 2.0 , , , , , , , , , , , , , , , , ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,
Jedną z ciekawych funkcji nowej wersji jest to, że umożliwia prowadzenie rozmów konferencyjnych na wielu monitorach z wielopasmowym dźwiękiem. Oficjalna nazwa procedury to Discrete Digital Multi-Point (DDM) Audio. Radeon HD 7970 można podłączyć jednocześnie do trzech wyświetlaczy, które mogą odbierać ośmiokanałowy strumień audio. Może to nie być szczególnie interesujące dla użytkowników domowych, ale jest dobrym przykładem tego, w jak wielu obszarach można użyć nowej armaty. Dysk Catalyst również ewoluuje, ułatwiając na przykład pozycjonowanie tacy i umożliwiając kompilację niestandardowych rozdzielczości. Warto wspomnieć, że stereofoniczne treści Full HD 3D można oglądać także w trybie Eyefinity. 

29 m

UVD i VCE
UVD 3.0 już teraz oferuje akcelerację sprzętową dla treści DivX/Xvid, MPEG-4 Part 2 MVC, a Video Code Engine (VCE) jest praktycznie odpowiednikiem AMD Quick Sync Video. VCE jest samodzielnym sprzętem i został zaprojektowany tylko w celu przyspieszenia transkodowania wideo H.264. Silnik jest wolniejszy niż procesory cieniujące w procesorze graficznym, ale znacznie bardziej energooszczędny. Użytkownicy mają do dyspozycji dwa tryby. Na początku działa tylko VCE, który sam w sobie jest szybszy niż większość procesorów. W takim przypadku nie odczujemy spowolnienia, możemy bez problemu załadować kartę graficzną lub jednostkę centralną. Druga opcja to tryb hybrydowy. Jednostki arytmetyczno-logiczne VCE i GPU wspólnie wykonują zadanie. To „małżeństwo” ma oczywiście dobry wpływ na szybkość kodowania, ale w takim przypadku nie zdziw się, jeśli twoja ulubiona gra przełączy się w tryb „pokazu slajdów”.

32

Teraz, gdy znamy teorię i liczby, zapoznajmy się z trzema modelami GCN w teście!