Стройка десятилетия. Изучаем процессорную архитектуру AMD Bulldozer

Как известно, Intel уже более пяти лет придерживается стратегии развития «Tick-Tock», меняя по нечётным годам технологический процесс производства, а по чётным - микроархитектуру. AMD следует совершенно другой политике, улучшая свои модели по мере готовности новых технологий. Так, последнее обновление микроархитектуры компания проводила почти четыре года назад, выпустив CPU Phenom на K10, освоившей с тех пор три техпроцесса – 65 нм у Agena, 45 нм у Deneb и 32 нм у Llano. Тем не менее, рано или поздно потенциал любой разработки исчерпывает себя и назревает необходимость её радикального обновления.

И, в отличие от Intel, которая планомерно освежает свою микроархитектуру каждые два года, AMD предпочитает делать это несколько реже, но внося больше изменений и улучшений. Фактически, с момента появления первых Athlon на К7, было всего два её обновления, но зато существенных и радикальных – это K8, представленная в 2003 году и ставшая основой для Athlon 64, и уже упомянутая K10, в семействах Phenom и Athlon II. Да, впоследствии компания наращивала частоты, кэши и количество ядер в своих продуктах, меняла технологические процессы, но их структура, являющаяся основой и «сердцем» целых семейств CPU, оставалась незыблемой.

Немного теории

Новая микроархитектура Bulldozer, дебютирующая в процессорах AMD FX, существенно отличается от прошлой – K10, и кроме того, не вписывается в стратегию предшествующих обновлений, когда инженеры стремились исправить их недостатки и подчеркнуть достоинства. Рассматривая K10, можно было увидеть в ней очертания и общую топологию K8 и K7, а если поступить аналогичным образом с Sandy Bridge, то и у последней можно заметить ряд особенностей предыдущих Nehalem и Conroe.

А если взяться за Bulldozer, сразу бросается в глаза, что она фактически полностью отлична как от K10, так и от других х86 совместимых микроархитектур. На фоне предшественников новинка смотрится не менее необычно, чем самолёт на фоне вертолёта. Рассмотрим её подробнее, но сразу оговорюсь, что постараюсь объяснить суть и характер изменений, не залезая в технические дебри и тонкости, поскольку большинству это скучно и неинтересно, а кому необходимо - тот и так знает, где найти интересующую его информацию.

Основное отличие Bulldozer от других актуальных процессорных микроархитектур заключается в компоновке x86 ядер, которые теперь попарно расположены в одном «модуле» и делят между собой остальные ресурсы – блок вещественных вычислений (FPU), кэш второго уровня (L2) и так называемый «front end», о последнем будет рассказано ниже. Таким образом, каждый модуль новой микроархитектуры является чем-то средним между обычным двухъядерным CPU и процессорным ядром с Hyper-Threading.

В некотором смысле это даже развитие идеи Hyper-Threading, но в отличие от неё, где два потока «разбивают» то же количество аппаратных ресурсов, в модуле Bulldozer"a два потока часть ресурсов делят, а часть - получают в единоличное пользование. Но баланс подобран грамотно, все «тяжёлые» и «дорогие» (с точки зрения транзисторного бюджета) блоки распределяются между двумя ядрами, а сами х86 ядра дублируются, поскольку тратится на каждое из них всего лишь около 12% общего числа транзисторов в модуле.

С точки зрения выполнения целочисленных и адресных операций каждый модуль представляет собой два полноценных и независимых ядра, между которыми при вещественных вычислениях делятся ресурсы FPU. Эти же ядра по факту и обслуживают FPU, отправляя ему инструкции на исполнение, загружая и выгружая данные, храня и отставляя МОПы, поскольку именно к ним привязаны вычислительные потоки, механизмы внеочередного исполнения команд и кэши данных первого уровня (L1D).

Очевидно, что основное преимущество данной схемы перед одним ядром - в повышенной производительности при многопоточной нагрузке, особенно с упором на целочисленные вычисления. Попробуем рассмотреть основные блоки Bulldozer подробнее.

Front end

Фактически, «front end» представляет собой набор логических устройств, обеспечивающих подготовку инструкций для исполнения на вычислительных устройствах. В него входят блоки предсказания переходов, точность работы которых влияет на то, как часто будет простаивать CPU в процессе ожидания передачи нужных данных из оперативной памяти или кэшей, кэш инструкций первого уровня (L1I) и декодер, который занимается «переводом» х86 инструкций в понятный для исполнительных устройств вид - МОПы.

Изменения, которые коснулись этих блоков, неоднозначны. С одной стороны, повысилась точность предсказаний переходов. При декодировании из кэша данные считываются порциями в 32 байта, как у K10, что хорошо и вдвое больше, чем у Sandy Bridge. Инструкции теперь перерабатываются четырьмя каналами, а не тремя, как в K7-K10. И это одно из самых важных и долгожданных улучшений в микроархитектуре. Но AMD только сейчас внедрила четырёхканальный декодер, в то время как у Intel он появился пять лет назад, в Conroe (Core2). При этом кэш инструкций фактически того же размера и ассоциативности (64 Кбайта, 2-way), что и в K10, куда он перекочевал без особых изменений ещё с K7.

Также не стоит забывать, что теперь и кэш инструкций, и декодер будут нужны не одному, а двум потокам, так что их возможности можно условно разделить пополам при интенсивной многопоточной нагрузке. Резюмируя, можно сказать, что новый «front end» выглядит в чём-то лучше, а в чём-то хуже, чем у предшественников, и будет демонстрировать свою силу и слабость в зависимости от характера задачи.

Х86 ядра

Данные блоки, в количестве двух штук на модуль, являются как раз той самой отличительной особенностью Bulldozer"a и позволяют одному модулю обрабатывать два потока инструкций. По сути, в них сосредоточены основные устройства х86 ядер с механизмом внеочередного исполнения команд (Out-of-Order Execution), а именно – буфер МОПов, поступивших с декодера (Sheduler), устройство отставки выполненных инструкций (Retire), сами целочисленные исполнительные устройства и устройства генерации адреса (ALU и AGU), по две штуки на х86 ядро, а также кэш данных первого уровня (L1D) и устройство загрузки выгрузки (LSU).

Во многом, х86 ядро Bulldozer"a напоминает целочисленный блок K10, но налицо ряд заметных и неоднозначных изменений. Во-первых, количество ALU и AGU сократилось с трёх до двух, по сравнению с K10. С одной стороны, это падение пиковой теоретической производительности в полтора раза, с другой, выжать её на практике практически невозможно, так что потеря не велика, хоть и есть. Во-вторых, кэш данных стал в четыре раза меньше, чем у K10, 16 Кбайт вместо 64 Кбайт, но зато его ассоциативность выросла с двух путей до четырёх. Так что можно назвать это оправданным разменом объёма на скорость.

Ну а LSU стал лучше во всём, как номинальная, так и эффективная вместимость буферов существенно выросла, а разрядность операций записи увеличена в два раза.

FPU

Пожалуй, один из самых важных блоков процессора – блок вещественных вычислений, отвечает, как несложно догадаться, за выполнение операций с плавающей запятой, а также исполнение наборов инструкций SSE всех версий, AVX, FMA и отдельных команд. Фактически FPU Bulldozer является самым мощным и функциональным на сегодня, и во многом именно благодаря ему, AMD надеется одолеть конкурирующие решения Intel на базе микроархитектуры Sandy Bridge.

Основой FPU Bulldozer являются два FMAC устройства, разрядностью 128-бит каждое. В отличие от K10, где за операции сложения и умножения отвечали разные устройства, эти являются универсальными и способны выполнить весь спектр поддерживаемых команд. Можно сказать, AMD перешла от ассиметричной схемы исполнительных устройств FPU к симметричной. В случае разделения ресурсов между двумя x86 ядрами, каждое может работать со своим FMAC устройством.

Единственным исключением является исполнение AVX команд разрядностью 256-бит, в этом случае оба вычислительных устройства выполняют эту операцию как единый блок. Причём стоит отметить, что если при AVX операциях 256-битной разрядности его производительность на один такт равна FPU Sandy Bridge, то при снижении разрядности AVX операций до 128-бит, темп их исполнения превышает таковой в два раза.

Помимо скорости стоит вспомнить и о функциональности. Как уже было сказано, блок вещественных вычислений Bulldozer"a поддерживает FMA (fused multiply-add – совмещённое умножение-сложение) команды, вида A = B x C + D. Причём результат умножения не округляется перед сложением, что положительно сказывается на точности вычислений. В общем итоге можно сказать, что FPU по всем параметрам лучше, чем в предыдущих микроархитектурах AMD, и инженеры могут гордиться своей работой.

Кэши и северный мост

Подсистема кэшей также претерпела несколько важных изменений, по сравнению с K10. Как уже упоминалось, кэш данных первого уровня (L1D) разменял объём на ассоциативность, а кэш инструкций (L1I) остался фактически без изменений. Кэш второго уровня (L2), который раньше единолично использовался одним ядром, теперь является общим для двух х86 ядер модуля. Кроме того, объём L2 кэша вырос с 512 Кбайт до 2 Мбайт, по сравнению с K10. Уровень ассоциативности остался тот же, 16-way.

Это значит, что в восьмиядерном, четырехмодульном ЦП с микроархитектурой Bulldozer используется четыре кэша второго уровня суммарным объёмом 8 Мбайт. Но, скорее всего, рост объёма и необходимость делить ресурсы между двумя ядрами также наложили отрицательный отпечаток на время доступа к кэшу второго уровня. Кэш третьего уровня и контроллер памяти, подобно K10, работают на своей частоте, более низкой, чем частоты модулей. Для анонсированных процессоров она составляет 2-2.2 ГГц, в зависимости от модели. Это меньше, чем у Sandy Bridge, где интегрированный контроллер памяти и L3 кэш работают на частоте ядра. Объём кэша третьего уровня у Bulldozer, составляет теперь 8 Мбайт, а его ассоциативность 64-way, что на треть больше, чем у Deneb (6 Мбайт и 48-way соответственно).

Стоит также напомнить, что кэш у процессоров AMD организован по так называемой эксклюзивной схеме, когда данные в кэшах разных уровней не дублируются и суммарный объём их всех можно считать и эффективным. Подводя итоги по кэшам, скажу, что изменения в L1 и L2 существенные, но неоднозначные, а L3 выглядит логичным развитием наработок K10.

Контроллер памяти ЦП AMD FX не претерпел существенных изменений, он по-прежнему двухканальный, а штатно поддерживаемая частота модулей памяти DDR3 увеличилась до 1866 МГц.

Turbo Core 2.0

Технология автоматического разгона, дебютировавшая в моделях AMD Phenom II X6, была существенно улучшена и во многом похожа на ту, что используется в линейке Sandy Bridge. В процессоре появился специальный блок, который отслеживает актуальное потребление CPU и загрузку ядер, и на основе этой информации изменяет частоты ядер модулей. Если потребление ЦП не превышает TDP, то частоты всех ядер могут подниматься сверх базовых на заданное значение.

К примеру, для AMD FX-8150 частота возрастает со штатных 3.6 ГГц до 3.9 ГГц, для всех восьми ядер. А когда потребление процессора ниже TDP, а часть ядер при этом ещё и простаивает, то частоты нагруженных ядер могут подниматься ещё выше, до 4.2 ГГц, в случае с AMD FX-8150. Справедливости ради стоит напомнить, что подобная технология используется в AMD Llano, где учитывается потребление не только ядер CPU, но и интегрированного графического процессора.

Теория - заключение

Что же можно сказать, подводя итоги по новой микроархитектуре? Как уже было показано выше, изменений очень много, все они глубокие и неоднозначные. Нет сомнений, что Bulldozer - новая микроархитектура AMD. Это же означает, что показать она себя может также очень неоднозначно, продемонстрировав местами производительность чуть ниже, чем у K10, а местами значительно больше.

Тем не менее, с точки зрения поддержки современных наборов команд и технологий автоматического повышения частот, ориентированности на многопоточную нагрузку, новая разработка AMD не уступает конкурирующей – Sandy Bridge, а в ряде случаев смотрится даже выгоднее. И хотя заметно, что у Bulldozer есть целый ряд слабых мест, они легко могут быть устранены в будущем.

На этом, вероятно, и будет основана стратегия компании на ближайшие годы. Bulldozer можно рассматривать, как инвестиции в её будущее, это скелет следующих микроархитектур, которые будут обрастать «мясом», и давать приросты производительности. Согласно текущим планам, AMD будет ежегодно, а не раз в несколько лет, обновлять микроархитектуру своих процессоров, что должно будет отзываться 10-15% приростом производительности и ростом энергоэффективности будущих решений.

Отдельно хотелось бы упомянуть момент, касающийся распределения вычислительных потоков по ядрам. Windows 7 в текущем виде лишена оптимизации под процессоры с микроархитектурой Bulldozer и не способна правильно распределять потоки, что в ряде случаев приводит к потери производительности, поскольку ЦП не может использовать технологии повышения частот, или же зависимые вычислительные потоки обмениваются данными через L3, а не более быстрый L2, поскольку они оказались привязаны к ядрам разных модулей.

AMD в своих материалах указывает, что планировщик Windows 8 уже умеет правильно работать с Bulldozer и преимущество в производительности над Windows 7 способно достигать в отдельных случаях до 10%, что, согласитесь, немало. Впрочем, возможно Microsoft выпустит патч на «семерку», который научит и эту популярную операционную систему правильно распределять потоки для новых процессоров AMD.

Теперь самое время закончить с теорией и посмотреть, чем же может порадовать новый флагман AMD на практике.

Инструментарий и методика тестирования

Скорость работы связки «процессор-чипсет-память» оценивалась следующими приложениями:

  • Cinebench 10 ;
  • Cinebench 11.5 ;
  • Pov-Ray All CPU Total seconds;
  • TrueCrypt Serpent-Twofish-AES ;
  • wPrime 2.00 ;
  • x264 v3 (устаревшая версия, без агрессивных оптимизаций под многопоточность);
  • x264 v4 (новая версия, хорошо оптимизированная под многопоточность с новыми кодеками);
  • WinRAR ;
  • Photoshop CS5 x64 (применение последовательности из нескольких десятков фильтров);
  • Autodesk Revit Architecture 2012 (визуализация 3D-чертежа дома).

Тестовый стенд

В тестировании участвовало несколько систем с использованием большого набора комплектующих, в том числе материнских плат. Таблица ниже позволит ознакомиться с полным описанием стендов, а также режимов работы конфигураций.

Материнская
плата
NB Чипсет Частота
памяти
Количество
ядер
Частота
шины
Множитель Турбо Название процессора
/режим
ASUS Crosshair V 2200 FX990 1333 8 200 21 4200 МГц FX 8150
3600 МГц
MSI 990FXA-GD80 2000 FX990 1333 6 200 16.5-18.5 3700 МГц Phenom II 1100
3300 МГц
MSI 990FXA-GD80 2000 FX990 1333 4 200 18.5 - Phenom II 980
3700 МГц
MSI 990FXA-GD80 2000 FX990 1333 4 200 15.5 - Athlon II 645
3100 МГц
MSI A75MA-G55 - A75 1333 4 100 29 - A8 3850
2900 МГц
MSI A75MA-G55 - A75 1333 4 100 24-27 2700 МГц A8 3800
2400 МГц
MSI A75MA-G55 - A75 1333 4 100 26 - A6 3650
2600 МГц
MSI A75MA-G55 - A75 1333 3 100 21-24 2400 МГц A6 3500
2100 МГц
MSI A75MA-G55 - A75 1333 2 100 27 - A4 3400
2700 МГц
MSI Z68A-GD80 - Z68 1333 4 100 34-38 3800 МГц i7 2600K
3400 МГц
MSI Z68A-GD80 - Z68 1333 4 100 33-37 3700 МГц i5 2500
3300 МГц
MSI Z68A-GD80 - Z68 1333 4 100 31-34 3400 МГц i5 2400
3100 МГц
ASUS P6X58D 2667 X58 1333 4 133 23 3060 МГц i7 930
2800 МГц
MSI Z68A-GD80 - Z68 1333 2 100 31 - i3 2100
3100 МГц
ASUS Crosshair V 2200 FX990 1866 8 200 21 4200 МГц FX 8150
3600 МГц 1866
MSI A75MA-G55 - A75 1866 4 100 29 - A8 3850
2900 МГц 1866
MSI A75MA-G55 - A75 1866 4 100 24-27 2700 МГц A8 3800
2400 МГц 1866
MSI A75MA-G55 - A75 1866 4 100 26 - A6 3650
2600 МГц 1866
MSI A75MA-G55 - A75 1866 3 100 21-24 2400 МГц A6 3500
2100 МГц 1866
MSI A75MA-G55 - A75 1866 2 100 27 - A4 3400
2700 МГц 1866
MSI Z68A-GD80 - Z68 1866 4 100 34-38 3800 МГц i7 2600K
3400 МГц 1866
MSI Z68A-GD80 - Z68 1866 4 100 33-37 3700 МГц i5 2500
3300 МГц 1866
ASUS Crosshair V 2200 FX990 1866 8 200 22.5 - FX 8150
4500 МГц
MSI 990FXA-GD80 2380 FX990 1820 6 340 12.5 - Phenom II 1100
4250 МГц
MSI 990FXA-GD80 2400 FX990 1600 6 200 21 - Phenom II 1100
4200 МГц
MSI 990FXA-GD80 2400 FX990 1600 4 200 22.5 - Phenom II 980
4500 МГц
MSI 990FXA-GD80 2240 FX990 1500 4 280 16 - Phenom II 980
4480 МГц
MSI A75MA-G55 - A75 2000 4 150 29 - A8 3850
4350 МГц
MSI A75MA-G55 - A75 2040 4 153 27 - A8 3800
4133 МГц
MSI A75MA-G55 - A75 1900 4 142 26 - A6 3650
3700 МГц
MSI A75MA-G55 - A75 1900 3 142 24 - A6 3500
3400 МГц
MSI A75MA-G55 - A75 2050 2 154 27 - A4 3400
4160 МГц
MSI 990FXA-GD80 2170 FX990 1650 4 310 12 - Athlon II 645
3720 МГц
MSI Z68A-GD80 - Z68 1866 4 100 48 5000 МГц i7 2600K
5000 МГц
MSI Z68A-GD80 - Z68 1866 4 100 45 - i7 2600K
4500 МГц
ASUS P6X58D 3200 X58 1600 4 200 21 - i7 930
4200 МГц

  • Оперативная память: объём 8 Гбайт, (2х4). Тайминги 9-9-9-24-2Т, частота от 1333 МГц до 2050 МГц, в зависимости от настроек и условий тестирования;
  • Видеокарта: AMD HD 6790;
  • Жёсткий диск: SSD Crucial М4 128 Гбайт;
  • Блок питания: Tagan TG1100-U95 1100 Вт;
  • Операционная система: Microsoft Windows 7 x64 Sp1.

И три режима тестирования:
1. Номинальные частоты процессора, память 1333 МГц.
2. Номинальные частоты процессора, память 1866 МГц.
3. Разгон, память работает на разной частоте в зависимости от множителя.

Результаты тестов

За начальную точку отсчета была взята конфигурация, состоящая из материнской платы на чипсете 990FX, ЦП AMD FX 8150, и памяти, работающей на частоте 1333 МГц, с таймингами 9-9-9-24-2Т.

Cinebench 10

Настройки:

  • Монопоток и многопоточный тест.
  • Профиль CPU.

Баллы

Номинальный режим: Performance 1 CPU | Multi CPU

Тест, использующий как одно, так и все ядра, показывает не лучшее положение дел у новичка, который чувствует себя не в своей тарелке, если нагрузка приходится только на одно ядро. Как только программа задействует все ядра, ситуация значительно изменяется, и он становится прямым конкурентом Intel i5-2500. Впрочем, AMD именно так и позиционирует свой ЦП с индексом 8150. А сравнивая производительность FX с i7-930, можно убедиться в превосходстве первого над вторым.

Баллы

Память на частоте 1866 МГц: Performance 1 CPU | Multi CPU

Включите JavaScript, чтобы видеть графики

Разогнанная память мало сказывается на производительности любого современного процессора AMD, поэтому бежать в магазин и обзаводиться высокочастотными модулями совсем не нужно.

Баллы

Overclocking: Performance 1 CPU | Multi CPU

Включите JavaScript, чтобы видеть графики

FX 8150 пока что слабо изучен, и разгон сопровождается трудностями взаимопонимания материнской платы и процессора. По температурам было видно, что Bulldozer способен работать на большей частоте, но иные множители не включились. Полагаю, со временем производители еще неоднократно обновят BIOS, прежде чем наладится дружба комплектующих. Тем не менее, 4.5 Ггц неплохая цифра, и благодаря такому разгону новичок в многопоточном тесте уверенно опережает практически все процессоры Intel, за исключением разогнанного i7-2600K.

Наименование 1 CPU % xCPU % Среднее
FX 8150 3600 МГц 0 0 0
Phenom II 1100 3300 МГц 2 -9 -4
Phenom II 980 3700 МГц 5 -26 -11
Athlon II 645 3100 МГц -20 -46 -33
A8 3850 2900 МГц -18 -42 -30
A8 3800 2400 МГц -28 -51 -40
A6 3650 2600 МГц -27 -47 -37
A6 3500 2100 МГц -37 -66 -51
A4 3400 2700 МГц -28 -72 -50
i7 2600K 3400 МГц 52 12 32
i5 2500 3300 МГц 49 1 25
i5 2400 3100 МГц 34 -7 14
i7 930 2800 МГц 8 -15 -4
i3 2100 3100 МГц 23 -46 -11
FX 8150 3600 МГц 1866 0 1 0
A8 3850 2900 МГц 1866 -17 -40 -28
A8 3800 2400 МГц 1866 -27 -48 -37
A6 3650 2600 МГц 1866 -24 -46 -35
A6 3500 2100 МГц 1866 -36 -65 -50
A4 3400 2700 МГц 1866 -26 -72 -49
i7 2600K 3400 МГц 1866 52 16 34
i5 2500 3300 МГц 1866 50 1 25
FX 8150 4500 МГц 10 23 16
Phenom II 1100 4250 МГц 20 14 17
Phenom II 1100 4200 МГц 19 14 16
Phenom II 980 4500 МГц 27 -11 8
Phenom II 980 4480 МГц 26 -11 8
A8 3850 4350 МГц 23 -12 6
A8 3800 4133 МГц 17 -17 0
A6 3650 3700 МГц 6 -25 -10
A6 3500 3400 МГц -1 -49 -25
A4 3400 4160 МГц 13 -56 -22
Athlon II 645 3720 МГц -4 -34 -19
i7 2600K 5000 МГц 106 52 79
i7 2600K 4500 МГц 83 46 64
i7 930 4200 МГц 49 18 34

Процессоров AMD с принципиально новой архитектурой Bulldozer откровенно заждались не только почитатели продукции компании, но и многие пользователи, следящие за IT-прогрессом. В последние несколько лет предлагая интересные решения по соотношению цена/производительность, AMD в основном концентрировалась на устройствах начального и среднего уровней. Возрождая линейку FX, очевидно, что компания рассчитывает привлечь внимание и более взыскательных энтузиастов, готовых к экспериментам и требующих максимальных скоростей. Возможности нового семейства мы будем изучать на примере первого в мире восьмиядерного процессора для десктопов – AMD FX-8150. Посмотрим, удастся ли производителю оправдать ожидания своих поклонников.

В отличие от основного конкурента, который может себе позволить следовать маятниковому принципу разработки CPU, проводя смену архитектур и технологических процессов c годичной периодичностью, компания AMD не очерчивает для своих проектов определенных временных рамок, полагаясь на чутье рынка и собственный технологический потенциал. История с архитектурой Bulldozer началась давно. Предполагалось, что ее представят еще в 2009 году, но в силу различных обстоятельств практическое воплощение смелых инженерных решений в кремнии стало возможным лишь сейчас.

Bulldozer для AMD – это всерьез и надолго. Данная микроархитектура на ближайшие несколько лет станет основой для будущих процессоров из различных сегментов: серверного, десктопного и мобильного. Это касается как дискретных CPU, так и гибридных – APU также со временем планируется трансформировать под Bulldozer. Лишь для компактных систем AMD собирается использовать чипы на экономичной Bobcat и ее модернизированных версиях. С анонсом Bulldozer компания решила возродить легендарную серию, представив процессоры линейки AMD FX, которые получили новую архитектуру и производятся с применением наиболее прогрессивного 32-нанометрого техпроцесса.

Особенности архитектуры

В основе чипов Bulldozer лежат модули с двумя вычислительными блоками x86. При этом последние не являются полностью автономными – некоторые ресурсы общие для обоих ядер. В частности, блок предварительной выборки, декодер инструкций, FPU и кеш-память второго уровня (L2). Монолитный двухъядерный модуль обеспечивает одновременное выполнение двух потоков, но с определенными оговорками. По расчетам производителя, такой подход вполне оправдан и позволяет получить порядка 80% эффективности полноценных физических ядер. Однако при этом значительно уменьшается количество транзисторов, а соответственно, площадь кристалла и его энергопотребление.

С учетом новой структуры внутренняя архитектура была очень серьезно переработана, что фактически затронуло все исполнительные блоки. Сходства с К10, которая использовалась для чипов Phenom II и Athlon II, практически нет. AMD внедрила поддержку инструкций AVX, SSE 4.2 и AES-NI и добавила собственные наборы FMA4 и XOP.

Как и топовые процессоры Phenom, чипы FX получили трехуровневую систему кеширования. Однако ее организация также заметно отличается о той, что была у предшественников. Кеш-данных L1 уменьшился с 64 КБ до 16 КБ, в то же время существенно возросла его пропускная способность. L2 объемом 2 МБ является общим для обоих ядер каждого модуля. В зависимости от количества последних суммарная емкость кеш-памяти второго уровня в процессоре AMD FX может составлять от 4 до 8 МБ. Латентность его несколько увеличена – плата за оптимизацию для работы на повышенных частотах. Чипы с архитектурой Bulldozer также оснащены L3-кешем объемом 8 МБ. Учитывая эксклюзивную схему работы, суммарный объем буфера довольно впечатляющий как для десктопных моделей. Усовершенствованный алгоритм предвыборки данных позволяет надеяться, что скорость подсистемы памяти будет увеличена. Что касается непосредственно ОЗУ, то CPU FX поддерживают модули DDR3-1866 в двухканальном режиме.

Для производства AMD FX используется 32-нанометровый техпроцесс с технологией SOI, аналогичный применяемому при изготовлении APU Llano. Чипы выпускаются на мощностях родственной компании GlobalFoundries. В основе CPU лежит восьмиядерный кристалл площадью 315 мм2. Согласно топологии, большая его часть отводится под кеш-память, потому неудивительно, что суммарное количество транзисторов в данном случае составляет впечатляющие 2 млрд. Для сравнения: шестиядерные Phenom II X6 (Thuban) включают «всего» 904 млн транзисторов, но из-за 45-нанометрового техпроцесса площадь кристалла равна 346 мм2. Учитывая разницу в площади, можно предположить, что себестоимость чипов FX ниже, чем у предшественников. Однако переход на 32 нм непросто дается GlobalFoundries. AMD уже сообщала о сложностях с выходом годных заготовок, ввиду которых компания не может в полной мере удовлетворить спрос на гибридные Llano. Будем надеяться, что это никак не повлияет на доступность в продаже FX, и все желающие смогут их приобрести.

Для четырех- и шестиядерных моделей будет использоваться тот же кристалл, что позволит эффективнее распорядиться чипами, имеющими определенные дефекты. Между тем вполне вероятно, что для производства данных CPU станут применяться и полностью работоспособные кристаллы с деактивированными модулями. А в этом случае можно рассчитывать на очередную лотерею с разблокированием отключенных ядер. Прекрасный получился бы способ подогреть интерес к процессорам AMD FX.

Технические характеристики процессоров
Модель FX-8150 Phenom II X6 1075T Phenom II X4 975 Core i7-2600K Core i5-2500K
Кодовое имя Bulldozer Thuban Deneb Sandy Bridge Sandy Bridge
Количество ядер/потоков, шт. 8/8 6/6 4/4 4/8 4/4
Базовая тактовая частота, ГГц 3,6 3 3,6 3,4 3,3
Тактовая частота после авторазгона, ГГц 3,9/4,2 3,5 3,8 3,7
Объем кеш-памяти L2/L3, МБ 8/8 6×0,5/6 4×0,5/6 4×0,25/8 4×0,25/6
Технология производства, нм 32 45 45 32 32
Процессорный разъем AM3+ AM3 AM3 LGA1155 LGA1155
Энергопотребление (TDP), Вт 125 125 125 95 95
Рекомендованная цена, $ 245 181(162*) 175 (160*) 317 (315*) 216 (225*)
* По данным каталога Hotline.ua .

Turbo Core

Технология динамического увеличения частоты Turbo Core ранее использовалась компанией AMD для шестиядерных Thuban и APU Llano. Процессоры FX имеют новый механизм и алгоритм работы данной функции. В случае, когда под нагрузкой энергопотребление чипа укладывается в рамки его TDP, а температура не превышает заданного значения, частота может автоматически увеличиваться (100–300 МГц) даже в ситуации, когда активны все ядра (All Core Boost). Если же как минимум половина модулей простаивают, то AMD FX может переходить в режим Max Turbo Boost, повысив напряжение питания и весьма значительно тактовую частоту работающих блоков (до 900 МГц).

AMD также озаботилась улучшением экономичности новых чипов. Учитывая рост количества вычислительных ядер, полагаться только на эффект от использования более тонкого техпроцесса нельзя. При отсутствии нагрузки на оба процессорных ядра в рамках одного модуля и переходе их в состояние энергосбережения C6 силовые транзисторы позволяют отключать питание от данного узла, снижая общее потребление CPU.

Логическая поддержка

Как и у предыдущей десктопной платформы AMD, контроллер шины PCI Express 2.0 остался прерогативой северного моста чипсета, а не перебрался под крышку процессора. Именно количество поддерживаемых линий данного интерфейса, а вследствие и способность построения конфигураций с несколькими видеокартами стали определяющими отличиями новых наборов логики для чипов Zambezi. В распоряжении топового AMD 990FX находятся 42 линка с возможностью компоновки на графические нужды как 2×16x или 4×8x. AMD 990X имеет 26 линий и позволяет подружить только две видеокарты в режиме CrossFireX или SLI в конфигурации 2×8x. Ну а AMD 970 при таком же числе линков PCI-E предлагает довольствоваться одним адаптером. Во всех случаях периферию обслуживает южный мост SB950, который не несет каких-либо интересных новшеств: шесть портов SATA 6 Гб/c с возможностью создания RAID (0,1,5,10), до 14 разъемов USB 2.0, работа с PCI. Увы, в отличие от чипсета AMD A75 для платформы FM1 поддержки скоростной шины USB 3.0 здесь нет.

Платформа AM3+

Для работы с процессорами серии FX нужна материнская плата с разъемом AM3+. Это может быть как модель на «новом» чипсете AMD 9xx, так и продукт с логикой предыдущих поколений. Совместимость с AM3 теоретически возможна, но не гарантируется ни самой AMD, ни производителями материнских плат. Не исключено, что последние выпустят прошивки для своих топовых решений, но это скорее единичные случаи. И даже в подобных ситуациях чипы FX будут функционировать с уменьшенной скоростью переключения состояний Turbo Boost и Cool’n’Quiet. При этом все возможные проблемы с работой системы лягут на плечи пользователей. Потому на беспроблемный апгрейд рассчитывать в данном случае не приходится.

Платы с AM3+ легко отличить по черному цвету процессорного разъема, тогда как коннектор AM3 белый. К счастью, конструкция элементов крепления СО не изменилась, потому для охлаждения AMD FX подойдет любой кулер, совместимый с AM2/AM2+/AM3.

Модельный ряд

3DMark 11, тест CPU (Physics), баллы
3DMark Vantage, баллы
PC Mark 7, тест Cоmputation, баллы
CineBench 11.5, баллы
x264 HD Benchmark 4.0, кадры/c
7-Zip 9.20, MIPS
Far Cry 2, 1920×1080, DX10, высокое качество, кадры/c
Hard Reset, 1920×1080, режим High, кадры/c
Metro 2033, 1920×1080, DX11, PhysX, высокое качество, кадры/c
Colin McRae: DiRT 3, 1920×1080, высокое качество, кадры/c
Lost Planet 2, 1920×1080, DX11, высокое качество, тест B, кадры/c
Crysis 2, 1920×1080, DX9, высокое качество, тест Downtown, кадры/c
Энергопотребление системы, Вт

Благодаря модульной структуре процессоров компании несложно выстроить свой модельный ряд, предлагая устройства с различными количеством вычислительных блоков и тактовыми частотами. На старте линейка десктопных чипов, получивших название Zambezi, включает четыре CPU. Флагманом является восьмиядерное решение FX-8150 с частотной формулой 3,6/3,9/4,2 ГГц. По 8 МБ кеш-памяти L2 и L3, а также TDP на уровне 125 Вт. Схожа по оснащению и FX-8120, отличие лишь в частотном режиме работы – 3,1/3,4/4,0 ГГц. Шестиядерный FX-6100 имеет 6 МБ кеш-памяти второго уровня и все те же 8 МБ L3, а вот его тепловой пакет – 95 Вт. Наиболее доступная версия с двумя модулями и четырьмя вычислительными блоками x86 FX-4100 функционирует на 3,6/3,7/3,8 ГГц, довольствуется 4 МБ L2, емким L3 (8 МБ) и TDP в 95 Вт. Что касается стоимости устройств, то рекомендованные оптовые цены для перечисленных моделей находятся на уровне $245/205/165/115 соответственно.

Разгон

Возможность беспрепятственного разгона процессоров является одним из ключевых параметров чипов FX. На этой особенности компания AMD делает отдельный акцент. Свободный множитель доступен всем моделям линейки, а возможность его изменения будет присутствовать на любой плате с AM3+.

Архитектура FX изначально создавалась с учетом функционирования на высоких тактовых частотах. Умельцы, вооруженные сосудами с жидким азотом, смогли получить скриншот CPU-Z в ситуации, когда процессор работал почти на 8,5 ГГц. При этом, правда, понадобилось оставить активным лишь один модуль из четырех. Все восемь ядер удалось заставить функционировать на 8,1 ГГц. Ранее подобных частот достигали разве что максимально облегченные версии Intel Celeron для LGA775. Теперь же у энтузиастов появится куда более интересный объект для оверклокерских экспериментов.

В случае с воздушной системой охлаждения придется довольствоваться более скромными результатами. При повышении напряжения питания до 1,45 В CPU стабильно работал на 4,6 ГГц. Может и не столь впечатляюще, но потенциал очевидно лучше, чем у 45-нанометровых чипов Phenom II.

Итоги

Результаты тестов производительности представлены на диаграммах. Картина достаточно показательна для того, чтобы в целом сложить мнение о возможностях новой разработки AMD. Процессоры FX ожидаемо получили прирост быстродействия в многопоточных задачах – архивировании, кодировании HD-видео, рендеринге. Здесь восьмиядерному чипу вполне по силам тягаться и с Core i5-2500K, и с более дорогостоящим Core i7-2600K. Однако как только дело доходит до приложений с неважной оптимизацией для параллельного исполнения кода, AMD FX сдают позиции – удельная производительность их x86-блоков даже несколько ниже, чем у продуктов с архитектурой K10. В играх, которые в лучшем случае задействуют 3–4 потока, заметное преимущество у процессоров от Intel. Если использовать максимальные настройки качества графики, где видеокарта становится ограничителем, показатели систем выравниваются, но оценить реальный потенциал CPU в таких условиях невозможно.

Переход на 32-нанометровый техпроцесс, скорее, позволил удержать энергопотребление на прежнем уровне при возросшем быстродействии. Вероятно, приоритетом в данном случае была именно производительность, а не улучшенная экономичность CPU.

Даже судя по стоимости AMD FX очевидно, что компания в первую очередь планирует закрепиться в средней ценовой категории, осознанно отдавая Intel сегмент топовых дорогостоящих решений. В текущих условиях достойно выступать в лиге «супертяжеловесов» объективно производитель сейчас не может. Сделав ставку на многоядерные вычисления, получить выдающиеся результаты в слабо оптимизированном ПО очень проблематично. Вместе с тем всего пять лет назад мы искренне удивлялись, кому может понадобиться на десктопе четырехъядерный процессор и как эффективно использовать ресурсы подобного CPU. Сегодня же это обыденность, и преимущества чипов с таким количеством вычислительных блоков уже не вызывают вопросов. Возможно, подобное признание некоторое время спустя получат и восьмиядерные модели.

К счастью, AMD не будет сложа руки наблюдать, какая участь постигнет ее процессоры. Озвученные планы дальнейшего развития внушают хотя и сдержанный, но все же оптимизм. Компания продолжит активно дорабатывать нынешнюю архитектуру, улучшая как энергоэффективность, так и производительность CPU, однако указанные темпы – 10–15% в год – не очень впечатляют. С подобными показателями рассчитывать на кардинальное изменение ситуации можно лишь в том случае, если Intel замедлит развитие своих продуктов, но предпосылок для этого нет – механизм «тик-так» пока еще не давал сбоев. Уже весной 2012 года будут представлены чипы Ivy Bridge, выполненные по 22-нанометровой технологии и использующие 3D-транзисторы.

Итоговая оценка рассмотренной архитектуры и процессора AMD FX-8150 на ее основе неоднозначна, а это уже говорит о том, что революции не произошло. По крайней мере на данном этапе она незаметна для конечного пользователя. Качественный скачок производительности имеет место на хорошо распараллеливаемых приложениях, тогда как в однопоточных задачах серьезной прибавки не наблюдается. Большие ожидания, возлагаемые на Bulldozer, оправдались лишь отчасти. AMD еще есть над чем поработать, чтобы предложить интересные решения и побороться за место в сердцах требовательных энтузиастов.

Bulldozer - кодовое название процессоров AMD64 выполненных по 32 нм технологии и ориентированных в первую очередь на серверные платформы и высокопроизводительных персональные компьютеры.

Нововведения
Процессоры Bulldozer имеют в своем арсенале совершенно другую архитектуру компоновку ядер, в отличии от предшествующего поколения AMD K8 и AMD K10. При беглом взгляде на кристалл Zambezi 8-ми ядерного процессора многие ошибаются, визуально определяя только четыре ядра. На самом деле это вычислительные модули. Инженеры компании AMD - поместили x86-ядра процессоров попарно в одном модуле. Вот и выходит, что восьмиядерные процессоры идут с четырьмя модулями, шестиядерные - имеют в своем арсенале уже три модуля, а четырехъядерные - соответственно только два. Выигрыш от такого решения заключается в повышении производительности процессора при многопоточной нагрузке.

Помимо стандартных функций, свойственных старым процессорам AMD, добавились и новые: SSE4.1, SSE4.2, CVT16, AVX, XOP и FMAC. А также реализована технология AMD Fusion – совмещение графического ядра и центрального процессора, аналог технологии Sandy Bridge.

Процессоры Бульдозер AMD теперь поддерживают новую версию технологии AMD Direct Connect (устраняет недостатки некоторых архитектур во время обмена данными), а также четыре канала HyperTransport 3.1 соответственно на каждый процессор. Технология расширения памяти AMD G3MX дает возможность значительно увеличить пропускную способность процессора.

Кроме этого следует отметить полную поддержку памяти DDR3 с частотой 1866 МГц и значительно увеличенный до 8 Мбайт объем L3 кэша.

Серьезных изменений претерпел и механизм управления энергопотребление. Некоторую роль здесь сыграл 32-нм техпроцесс, благодаря которому штатное напряжение не превышает 1.4 В, но в основном благодаря улучшенному механизму регулировки тактовых частот – тепловой пакет не превышает 125 Вт.

На предыдущих моделях процессорах Phenom II X6, если нагрузка была не более 3-х потоков, частота 3-х активных ядер повышалась на 400 МГц. «Бульдозеры» оснащены более гибким механизмом по управлению быстродействием. В случае отсутствия нагрузки, диспетчер энергосбережения может отключить модуль вместе с массивом памяти L2-кеша. Тем самым достигается снижение тепловыделения. Одновременно тактовая частота задействованных вычислительных модулей при необходимости может возрасти, в активизированном режиме Max Turbo – повышение составляет до - 900 МГц. Когда же идет приблизительно одинаковая нагрузка на все вычислительные модули, то повышение частоты возможно в пределах 300 МГц. В новых процессорах «Бульдозер» есть поддержка технологии Turbo Core 2, аналог Intel Turbo Boost (повышение частоты процессора с номинальной 3,5 до 4,2 Ггц), что положительно сказывается на производительности. Turbo Core активен до того времени, пока энергопотребление процессора не превышает установленный лимит TPD (теплового пакета). По этой причине для новых процессоров AMD FX такое понятие, как «штатная тактовая частота» теряет общепринятый смысл.

Кстати, по потенциалу разгона именно процессор AMD FX-8150 удалось разогнать до 8,429 ГГц, что является на данный момент абсолютным рекордом.

К сожалению, планировщик процессов ОС Windows на сегодняшний день не в полной мере оптимизирован для CPU AMD FX. Существует большая вероятность, что два потока одной программы будут обрабатываться двумя разными модулями, это не позволит задействовать режим Max Turbo или же потребуется повторная загрузка данных в кэш-память нужного модуля, что скажется в итоге на быстродействии.

Согласно информации, в Windows 8 планировщик заданий будет учитывать особенности архитектуры Bulldozer, что позволит использовать использования Turbo Core на полную силу. Ну а пользователям Windows 7 и XP стоит надеяться на обновление, которое быть может, выпустит компания Microsoft или инженеры программисты AMD выпустят в свет некий «волшебный» драйвер.

Тесты процессоров AMD FX Bulldozer (Бульдозер), мы не наводим – в Интернете их уже огромное количество, да и статья больше направлена на знакомство с данной линейкой и раскрытие особенностей, нежели на получение тестовых результатов.

Итак, из многочисленных графиков и бенчмарков можно наблюдать картину. Самый топовый в модельном ряду FX-8150 при сравнении с Core i5 2500k:

Проигрывает в тестах, генерирующих однопоточную загрузку (кстати тут его обходит и Phenom II K10);

Выигрывает в большинстве в многопоточных тестах, где нагрузка распределяется равномерно на все 8 ядер;

Поддержка криптографический инструкции AES-NI позволяет приблизится к Core I7 2600K;

Результаты тестов 3D, к сожалению, также не радуют, FX-8150 отстает от своих конкурентов;

В играх процессор AMD FX-8150 уступает Core i5 2500k, даже в тех играх в которых декларируется загрузка всех ядер процессора.

Хотя процессоры AMD FX Бульдозер уступают своим конкурентам по производительности, у них заложен неплохой потенциал на будущее. Проблема не в том, что инженеры компании AMD не смогли добиться поставленной цели. Планировалось, что основой высокой производительности процессоров базирующихся на новой микроархитектуре, будет реализовано за счет большего количества ядер, работающих на повышенных частотах. Но в период реализации идеи Bulldozerа в кремень, возникли трудности и увидевшие свет CPU AMD FX на достаточной тактовой частоте так и не заработали. Что повлекло за собой малое число исполняемых каждым отдельным ядром инструкций, а это в свою очередь снизило производительность в целом. Компенсировать же этот негативный эффект не смогли даже установленные 8-мь ядер на AMD FX-8150.

Это и объясняет, что во время многопоточной нагрузки восьмиядерный AMD FX-8150 оказался на уровне 4-х ядерного процессора от Intel Core i5, а при однопоточной показывает весьма посредственные результаты.

Но компания AMD работает над ошибками и в скором времени появится второе поколение бульдозеров Piledriver, что вселяет надежду на получение более удачного продукта. Из заявленной информации сотрудников AMD новое поколение процессоров будет иметь производительность выше на 40-50% по сравнению с FX-8150, ну а «штатная частота» на 30 превышать современную.

Что касается вопроса покупки процессора Bulldozer для игр, то это решение не слишком выглядит удачно на фоне отсутствия превосходства над процессорами Intel и в виду ценовой политики AMD.

Для узкопрофильных многопоточных задач: обработка видео, рендеринг и т.д. AMD Bulldozer будет хорошим решением.

Ровно год назад мы писали о новой процессорной микроархитектуре компании AMD, известной под названием Bulldozer. И вот год спустя, 12 октября, компания AMD наконец-то анонсировала семейство процессоров AMD FX на основе архитектуры Bulldozer. Более того, у нас появилась возможность протестировать один из восьмиядерных процессоров семейства AMD FX - процессор AMD FX-8100. Итак, давайте подробнее познакомимся с новыми процессорами компании AMD.

Общие сведения

В официальном пресс­релизе компании AMD, посвященном выпуску процессоров AMD FX, отмечается, что это семейство полностью разблокированных и настраиваемых процессоров для настольных ПК, использующих новую многоядерную архитектуру AMD (кодовое название Bulldozer).

Семейство AMD FX включает как восьмиядерные модели процессоров (серия FX-8000), так и шести­ (серия FX-6000) и четырехъядерные (серия FX-4000). Все процессоры AMD FX имеют процессорный разъем AMD AM3+.

Процессоры AMD FX на базе микроархитектуры Bulldozer стали первыми процессорами AMD, выполненными по 32-нм техпроцессу.

Как известно, компания AMD планирует выпустить три серии процессоров на базе микроархитектуры Bulldozer с кодовыми наименованиями Interlagos, Valencia и Zambezi. Процессоры Interlagos и Valencia - это серверные процессоры, а процессор Zambezi ориентирован на рынок настольных ПК. В данной статье мы детально познакомимся с процессорами Zambezi.

Как следует из пресс­релиза компании, одно из главных достоинств новых процессоров AMD Zambezi заключается в их невероятных возможностях в плане разгона тактовой частоты. В частности, об этом свидетельствуют недавно установленный мировой рекорд по разгону восьмиядерного процессора AMD FX, зафиксированный в «Книге рекордов Гиннесса», и титул «самый высокочастотный компьютерный процессор». Собственно, тот факт, что разгонные возможности процессора крайне важны для пользователей, не вызывает сомнения. Тем не менее немного странно слышать это из уст представителей компании AMD. Ведь когда у процессоров AMD наблюдались явные проблемы с тактовой частотой, представители данной компании на всех пресс­конференциях заявляли, что тактовая частота - не главное и что производительность процессора определяется совсем другими параметрами.

Впрочем, политика двойных стандартов свойственна не только компании AMD - она является своеобразным символом Америки. Однако не будем заниматься критикой американской морали, а лучше поближе познакомимся с процессорами AMD FX.

Итак, согласно официальному пресс­релизу, всего компания AMD представила четыре модели процессоров AMD FX: восьмиядерные процессоры FX-8150 и FX-8120, шестиядерный процессор FX-6100 и четырехъядерный процессор FX-4100 (табл. 1). Однако уже сейчас в продаже можно встретить еще один восьмиядерный процессор - FX-8100, а в скором времени компания собирается анонсировать также четырехъядерные процессоры FX-B4150 и FX-4170.

Все процессоры серии AMD FX поддерживают AMD Turbo Core - технологию динамической оптимизации производительности на уровне процессорных ядер. Она представляет собой упрощенный аналог технологии Intel Tubo Boost, которая используется в современных процессорах Intel. Почему мы говорим об упрощенном аналоге данной технологии? Дело в том, что технология AMD Turbo Core подразумевает три режима работы процессора: на штатной частоте, в режиме Turbo Core и в режиме MAX Turbo. В режиме Turbo Core реализуется возможность увеличения тактовой частоты на несколько ступеней одновременно всех ядер процессора, но только в случае, если при этом не превышается TDP процессора. MAX Turbo - это режим, в котором повышается на несколько ступеней тактовая частота только половины процессорных ядер, в то время как другая половина ядер отключается (переходит в режим C6). Опять-таки, режим MAX Turbo возможен только в том случае, если энергопотребление процессора не превышает его TDP.

Понятно, что от режима MAX Turbo выигрыш могут получить однопоточные приложения или приложения, которые не могут загружать все ядра процессора, а режим Turbo Core подходит для хорошо распараллеливающихся приложений, загружающих все ядра процессора.

В случае четырехъядерных процессоров Intel Core второго поколения с технологией Tubo Boost режим динамического разгона ядер процессора является более интеллектуальным. Если, например, загружены все четыре ядра процессора, то в рамках заданного TDP коэффициент умножения может быть увеличен на определенное число ступеней. Если загружены три ядра процессора, то количество ступеней, на которое увеличивается коэффициент умножения, может быть больше. Аналогично при загрузке только двух ядер процессора количество ступеней, на которое увеличивается коэффициент умножения, станет еще выше, а максимальная частота достигается в случае, когда загружено только одно ядро процессора.

Кроме того, в BIOS можно настраивать режим Tubo Boost, то есть задавать максимальные коэффициенты умножения для четырех, трех, двух и одного активного ядра. Также можно задавать TDP процессора, в рамках которого может быть реализован режим Tubo Boost.

В случае процессоров AMD возможности по динамическому разгону гораздо скромнее. В то же время справедливости ради отметим, что с помощью фирменной утилиты AMD OverDrive, поддерживающей процессоры AMD FX, режим AMD Turbo Core, как и всю систему в целом, можно настраивать в широких пределах.

Все процессоры семейства AMD FX оснащены кэшем L3 размером 8 Мбайт и имеют встроенный контроллер памяти DDR3-1866 (и ниже). Кроме того, на каждое ядро процессора семейства AMD FX приходится кэш L2 размером 1 Мбайт. Соответственно в случае восьмиядерных процессоров суммарный размер кэша L2 составляет 8 Мбайт, а в случае четырехъядерных - 4 Мбайт.

Процессорное ядро AMD Bulldozer

Подробно об особенностях микроархитектуры AMD Bulldozer мы писали ровно год назад в статье «Процессорная микроархитектура AMD Bulldozer» (КомпьютерПресс № 11’2010), а потому не будем повторяться и вновь углубляться в детали - напомним лишь наиболее важные аспекты микроархитектуры AMD Bulldozer.

Говоря о многоядерных процессорах на базе микроархитектуры AMD Bulldoze, очень важно подчеркнуть, что ядро в микроархитектуре AMD Bulldozer и процессорные ядра в других микроархитектурах - это не одно и то же. Поэтому не вполне корректно сравнивать по количеству ядер, к примеру, процессоры AMD FX (Zambezi) с процессорами Intel Cote i3/i5/i7 (Sandy Bridge). Дело в том, что процессоры AMD на базе микроархитектуры AMD Bulldozer предусматривают модульную архитектуру. Каждый модуль сам по себе (в терминологии компании AMD) является двухъядерным. К примеру, в восьмиядерном процессоре Zambezi содержатся четыре двухъядерных модуля (рис. 1).

Рис. 1. Блок-схема восьмиядерного процессора Zambezi

Однако то, что компания называет в данном случае ядром, на самом деле до настоящего процессорного ядра не дотягивает. Собственно, тут весь фокус в терминологии. Модуль, в котором расположены два ядра, вполне можно было бы назвать ядром, а сами ядра - вычислительными целочисленными кластерами. То есть, на наш взгляд, более корректно говорить не о модуле с двумя ядрами, а о ядре с двумя вычислительными целочисленными кластерами. Конечно, операционной системой каждый такой модуль в процессоре будет восприниматься как два отдельных ядра, но ведь и каждое ядро процессора Intel с технологией Hyper-Threading воспринимается операционной системой как два отдельных ядра, при этом мы говорим об одном ядре, способном одновременно обрабатывать два потока.

Впрочем, оставим особенности терминологии. Главное помнить, что в случае модуля AMD речь идет не об истинных двух ядрах, а о неком решении, способном одновременно обрабатывать два потока. Причем в плане эффективности такой двухъядерный модуль AMD превосходит одно ядро Intel с поддержкой Hyper-Threading, но уступает по эффективности двухпоточной обработки двум отдельным истинным ядрам.

Теперь разберемся, почему между двухъядерными модулями AMD и двумя истинными ядрами нельзя ставить знак равенства.

Прежде всего, в каждом псевдодвухъядерном модуле AMD часть ресурсов разделяется между обоими псевдоядрами. В частности, в модуле AMD предпроцессор, отвечающий за выборку инструкций из кэша инструкций L1I, их декодирование и продвижение к исполнительным блокам, а также кэш инструкций L1I и кэш L2 разделяются между обоими псевдоядрами (рис. 2). Кроме того, сами по себе псевдоядра двухъядерного модуля AMD имеют лишь целочисленные исполнительные конвейеры, а для работы с вещественными данными используют разделяемый на уровне модуля FP-кластер. Это напоминает ситуацию, когда центральный процессор x86 дополнялся сопроцессором x87 для выполнения арифметических операций с плавающей запятой. И хотя сама компания AMD этот исполнительный FP-кластер не называет сопроцессором, по сути это именно сопроцессор, разделяемый между двумя ядрами, которые могут выполнять только целочисленные операции.

Рис. 2. Блок-схема двухъядерного модуля
в процессорной микроархитектуре AMD Bulldozer

Если каждый процессорный модуль в микроархитектуре AMD Bulldozer наделен разделяемым между двумя ядрами кэшем L2, то кэш L3 является разделяемым между всеми процессорными модулями.

Чипсеты AMD 9-й серии

Еще задолго до анонса процессоров Zambezi компания AMD анонсировала чипсеты AMD 9-й серии, которые хотя и совместимы со всеми процессорами AMD с разъемом AM3+, но ориентированы как раз на новые процессоры AMD FX.

Чипсеты AMD 9-й серии являются основой для платформы, известной под названием AMD Scorpius. Помимо чипсетов AMD 9-й серии основу платформы AMD Scorpius составляет процессор Zambezi, а также дискретная видеокарта серии AMD Radeon HD 6000.

Чипсеты AMD 9-й серии поддерживают как новый процессорный разъем AMD Socket AM3+, так и старый разъем Socket AM3. То есть платы на базе чипсета AMD 9-й серии совместимы не только с новыми процессорами Zambezi, но и с процессорами предыдущего поколения семейства Phenom II с разъемом AMD Socket AM3.

В какой­то мере чипсеты AMD 9-й серии являются улучшенной версией чипсетов AMD 8-й серии, обеспечивая более широкие возможности. Напомним, что новые процессоры Zambezi с разъемом Socket AM3+ теоретически совместимы и с чипсетами AMD 8-й серии, однако в этом случае не все функциональные возможности процессоров Zambezi могут быть реализованы.

В настоящий момент 9-ю серию чипсетов AMD составляют три модели: AMD 990FX (кодовое наименование чипа RD990), AMD 990X (кодовое наименование чипа RD990) и AMD 970 (кодовое наименование чипа RD970). Все три чипсета поддерживают новый 942-контактный разъем Socket AM3+ и выполняются по 65-нм техпроцессу. Во всех чипсетах AMD 9-й серии имеется блок управления памятью для операций ввода­вывода IOMMU (Input/Output Memory Management Unit).

Так же как и традиционный процессорный блок управления памятью (MMU), который транслирует видимые процессором виртуальные адреса в физические, блок IOMMU занимается трансляцией виртуальных адресов, видимых аппаратным устройством, в физические адреса.

Чипсеты AMD 9-й серии связаны с процессором по традиционной шине HyperTransport. При этом во всех чипсетах реализована поддержка шины HyperTransport 3.1 с пропускной способностью до 6,4 GT/s.

Топовая модель AMD 990FX поддерживает 42 линии PCI Express 2.0, которые распределяются следующим образом: 32 линии PCI Express 2.0 могут быть сгруппированы в два порта PCI Express 2.0 x16 либо в четыре порта PCI Express 2.0 x8, оставшиеся десять линий могут быть сгруппированы в один порт PCI Express 2.0 x4 и в шесть портов PCI Express 2.0 x1, а могут применяться интегрированными на плате контроллерами.

Естественно, платы на базе топового чипсета AMD 990FX поддерживают технологию объединения дискретных видеокарт CrossFireX в режиме двух или четырех слотов PCI Express x16.

Чипсет AMD 990X отличается от AMD 990FX как раз количеством поддерживаемых линий PCI Express 2.0. В данном чипсете предусмотрено 26 линий PCI Express 2.0, но только 16 линий PCI Express 2.0 могут использоваться для организации одного порта PCI Express 2.0 x16 либо двух портов PCI Express 2.0 x8. Оставшиеся линии PCI Express 2.0 могут быть сгруппированы в один порт PCI Express 2.0 x4 и шесть портов PCI Express 2.0 x1, а могут применяться интегрированными на плате контроллерами. Чипсет AMD 990X, как и его старший брат AMD 990FX, поддерживает технологию CrossFireX в режиме двух слотов PCI Express x16.

Платы на базе младшего чипсета AMD 970 могут иметь только один слот PCI Express 2.0 x16 и не поддерживают технологию CrossFireX.

Собственно говоря, функциональность чипов AMD 990FX, 990X и 970, которые являются северными мостами соответствующих чипсетов, ограничивается лишь поддержкой ими линий PCI Express 2.0. Вся остальная функциональность чипсета сосредоточена в южном мосте. Для связи северного и южного мостов используется шина A-Link Express III с пропускной способностью 4 Гбайт/с (эквивалентно пропускной способности шины PCI-Express 2.0 x4).

Теоретически северные мосты AMD 990FX, 990X и 970 совместимы с южными мостами SB710, SB750, SB810, SB850, SB920 и SB950. Южные мосты SB710, SB750, SB810 и SB850 уже не новые и применяются давно. А вот мосты SB920 и SB950 специально предназначены для чипсетов AMD 9-й серии.

Южные мосты SB920 и SB950 поддерживают до 14 портов USB 2.0, шину PCI и шесть портов SATA 6 Гбит/с (SATA III). Мост SB950 поддерживает создание RAID-массивов уровней 0, 1, 5 и 10, а мост SB920 - только уровней 0, 1 и 10. Еще одно различие между мостами SB920 и SB950 заключается в том, что мост SB950 поддерживает четыре линии PCI Express 2.0 x1, а мост SB920 - только две такие линии.

Естественно, мосты SB920 и SB950 поддерживают HD Audio и гигабитный Ethernet.

Отметим, что энергопотребление чипов SB920 и SB950 составляет 5 Вт; энергопотребление северного моста AMD 990FX - 19,6 Вт, северного моста AMD 990X - 14 Вт, а северного моста AMD 970 - 13,6 Вт.

Плата GIGABYTE GA-990FXA-UD7 основана на новом топовом чипсете AMD 990FX в связке с южным мостом AMD SB950. Она имеет формфактор ATX (30,5x26,3 cм) и может применяться для создания игровых и высокопроизводительных компьютеров. Плата ориентирована на использование процессоров AMD FX (Zambezi) с разъемом AM3+, но также совместима с процессорами семейств AMD Phenom II и Athlon II c разъемом AM3.

Для установки модулей памяти на плате предусмотрены четыре DIMM-слота, что позволяет устанавливать до двух модулей памяти DDR3 на каждый из двух каналов памяти. Всего плата поддерживает установку до 32 Гбайт памяти (спецификация чипсета), и с ней оптимально применять два или четыре модуля памяти. Отметим, что в штатном режиме плата поддерживает память DDR3-1866, DDR3-1600, DDR3-1333 и DDR3-1066, а в режиме разгона - также память DDR3-2000.

Для установки видеокарт и других плат расширения на GIGABYTE GA-990FXA-UD7 реализованы шесть слотов с формфактором PCI Express 2.0 x16, но, естественно, не все они работают на скорости x16.

Чипсет AMD 990FX (северный мост) поддерживает 42 линии PCI Express 2.0, которые распределяются следующим образом: 32 линии PCI Express 2.0 могут быть сгруппированы в два порта PCI Express 2.0 x16 либо в четыре порта PCI Express 2.0 x8. Оставшиеся десять линий могут быть сгруппированы в порты PCI Express 2.0 x4 и PCI Express 2.0 x1 или использоваться интегрированными на плате контроллерами.

Собственно, на плате GIGABYTE GA-990FXA-UD7 32 линии PCI Express 2.0, поддерживаемые чипсетом, используются для организации четырех слотов с формфактором PCI Express 2.0 x16. Причем если применяются только два из этих слотов, то они работают на скорости x16, а при использовании одновременно всех четырех или трех портов они переключаются в скоростной режим x8.

Еще два порта с формфактором PCI Express 2.0 x16 всегда работают в скоростном режиме x4. Таким образом, всего для организации шести слотов с формфактором PCI Express 2.0 x16 применяется 40 линий PCI Express 2.0, поддерживаемых северным мостом AMD 990FX.

Естественно, плата GIGABYTE GA-990FXA-UD7 поддерживает технологию объединения дискретных видеокарт CrossFireX в режиме двух, трех или четырех слотов PCI Express x16, а также технологию NVIDIA SLI.

Кроме упомянутых слотов с формфактором PCI Express 2.0 x16, на плате есть один традиционный слот PCI, который реализован на PCI-шине, поддерживаемой южным мостом AMD SB950. Также шину PCI использует FireWire-контроллер VIA VT6308, который предоставляет в распоряжение пользователя два порта IEEE-1394a, один из которых выведен на заднюю панель платы, а другой можно вывести на тыльную сторону ПК, подключив соответствующую плашку к разъему на плате.

Для подключения жестких дисков на плате GIGABYTE GA-990FXA-UD7 предусмотрены восемь внутренних и два внешних SATA-порта.

Во­первых, имеются шесть портов SATA 6 Гбит/с, реализованные через интегрированный в южный мост AMD SB950 SATA-контроллер. Эти порты поддерживают возможность организации RAID-массивов уровней 0, 1, 10 и 5.

Во­вторых, на плате интегрированы два двухпортовых SATA 6 Гбит/с контроллера Marvell 88SE9172, посредством одного из которых реализованы два внутренних порта SATA 6 Гбит/с с возможностью организации RAID-массивов уровней 0 и 1, а посредством другого - два внешних порта eSATA 6 Гбит/с (один из них разделяемый с USB). Отметим, что один из контроллеров Marvell 88SE9128 задействует линию PCI Express 2.0, поддерживаемую северным мостом AMD 990FX, а другой - линию PCI Express 2.0, поддерживаемую южным мостом AMD SB950 (всего южный мост AMD SB950 поддерживает четыре линии PCI Express 2.0).

Для подключения разнообразных периферийных устройств на плате GIGABYTE GA-990FXA-UD7 имеются 18 портов USB. Посредством южного моста AMD SB950 реализовано 14 традиционных портов USB 2.0 (южный мост SB950 поддерживает до 14 портов USB 2.0), восемь из которых (включая комбинированный порт eSATA/USB) выведены на заднюю панель платы, а еще шесть портов можно вывести на тыльную сторону ПК, подключив соответствующие плашки к разъемам на плате.

Кроме того, на плате интегрированы два двухпортовых USB 3.0-контроллера Etron EJ168, причем два порта выведены на заднюю панель платы, а еще два можно вывести на тыльную сторону ПК, подключив соответствующую плашку к разъему на плате.

Отметим, что один из контроллеров Etron EJ168 задействует линию PCI Express 2.0, поддерживаемую северным мостом AMD 990FX, а другой - линию PCI Express 2.0, поддерживаемую южным мостом AMD SB950.

Аудиоподсистема этой материнской платы построена на базе HD-аудиокодека Realtek ALC889. Соответственно на тыльной стороне материнской платы имеются шесть аудиоразъемов типа mini-jack, а также коаксиальный и оптический разъемы SPDIF (выходы).

На плате интегрирован гигабитный сетевой контроллер Realtek RTL8111E, который занимает одну линию PCI Express 2.0, поддерживаемую южным мостом AMD SB950.

Если посчитать количество контроллеров, интегрированных на плате GIGABYTE GA-990FXA-UD7, которые используют шину PCI Express 2.0, то получится, что всего их пять. Действительно, шину PCI Express 2.0 задействуют два контроллера Marvell 88SE9172, два контроллера Etron EJ168 и контроллер Realtek RTL8111E. При этом из четырех линий PCI Express 2.0, поддерживаемых южным мостом AMD SB950, применяются три, а из десяти оставшихся линий PCI Express в северном мосте AMD 990FX - все десять (два слота PCI Express 2.0 x4 и два контроллера).

Система охлаждения платы GIGABYTE GA-990FXA-UD7 состоит из трех радиаторов, связанных друг с другом тепловой трубкой. Один радиатор закрывает MOSFET-транзисторы, расположенные рядом с процессорным разъемом, другой установлен на северном мосте AMD 990FX, а третий закрывает южный мост AMD SB950.

Отметим также, что на плате имеются два четырехконтактных и два трехконтактных разъема для подключения вентиляторов.

На плате GIGABYTE GA-990FXA-UD7 используется 10-фазный (8+2) регулятор напряжения питания процессора на базе управляющего контроллера Intersil ISL6330 и технология DrMOS, когда пара MOSFET-транзисторов и микросхема драйвера этих транзисторов интегрируются в одной микросхеме DrMOS SiC769CD.

Производительность процессора AMD FX-8100

В заключение нашего обзора приведем результаты тестирования восьмиядерного процессора AMD FX-8100. Процессор, конечно, не топовый, однако он вполне годится для того, чтобы получить представление о производительности процессоров AMD FX.

Для тестирования процессора AMD FX-8100 использовался стенд следующий конфигурации:

  • материнская плата - GIGABYTE GA-990FXA-UD7;
  • чипсет - AMD 990FX+ SB950;
  • видеодрайвер - ForceWare 280.26
  • память - DDR3-1333;
  • объем памяти - 4 Гбайт;
  • жесткий диск - WD1002FBYS;

Для тестирования мы применяли наш новый тестовый скрипт ComputerPress Benchmark Script v.10.0, подробное описание которого можно найти в этом номере журнала.

Кроме процессора AMD FX-8100, мы протестировали процессоры Intel Core i7-2600K, Intel Core i5-2500K и Intel Core i5-2400. Их технические характеристики представлены в табл. 2 .

Для тестирования процессоров Intel использовался стенд следующей конфигурации:

  • материнская плата - FOXCONN Z68A-A;
  • чипсет - Intel Z68 Express;
  • видеокарта - NVIDIA GeForce GTX 590;
  • видеодрайвер - ForceWare 280.26;
  • память - DDR3-1333;
  • объем памяти - 4 Гбайт;
  • режим работы памяти - двухканальный;
  • жесткий диск - WD1002FBYS;
  • операционная система - Windows 7 Ultimate (64-бит).

Заключение

По стоимости процессор AMD FX-8100 должен быть чуть дороже процессора Intel Core i5-2400 и чуть дешевле процессора Intel Core i5-2500K, так что его сопоставление именно с этими процессорами вполне уместно.

Кроме того, напомним, что в качестве референсной системы в нашем тестировании применялся ноутбук ASUS G53SX с процессором Intel Core i7-2630QM (базовая тактовая частота 2 ГГц; максимальная тактовая частота в режиме Turbo Boost 2,9 ГГц) в совокупности с чипсетом Intel HM65 Express, 8 Гбайт памяти DDR3-1333, а также дискретной видеокартой NVIDIA GeForce GTX 560M и жестким диском HITACHI HTS547564A9E384 (640 Гбайт).

Итак, если посмотреть на результаты тестирования восьмиядерного процессора AMD FX-8100, то можно сделать только один вывод: не получилось (табл. 3). Ну не получилось у компании AMD сделать высокопроизводительный, конкурентоспособный процессор. Восемь псевдоядер AMD вчистую проигрывают четырем истинным ядрам Intel. И получается, что настольный ПК, оснащенный мощной видеокартой и восьмиядерным процессором AMD FX-8100, на деле оказывается на 16% слабее ноутбука на базе четырехъядерного процессора Intel. Наверное, любые комментарии в данном случае просто бессмысленны.

Если сравнивать процессор AMD FX-8100 с процессорами семейства Sandy Bridge, то ситуация следующая. Он уступает по производительности процессору Intel Core i7-2600K целых 54%, а процессорам Intel Core i5-2500K и Intel Core i5-2400 - 46 и 37% соответственно.

Вообще, у компании AMD наблюдается довольно странный тренд: каждый следующий свой процессор компания умудряется сделать чуть хуже предыдущего. Вопрос только в том, кому нужны такие процессоры.

Итак, микроархитектура AMD Bulldozer себя не оправдала. И самое печальное, что она оказалась неконкурентоспособной уже на момент выхода, а ведь именно она станет основой для процессоров AMD в течение нескольких последующих лет. Что ж, остается только сожалеть, что нас лишили удовольствия наблюдать за увлекательным поединком между Intel и AMD.

mob_info