AMD 10h

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 13:32, 12 января 2019.
10h
Производство: С 2007 по 2012
Производители:
Частота CPU: 1700 MHz — 3700 MHz
Частота FSB: 1000 MHz — 2000 MHz
Технология производства: 45 µm — 65 µm
Разъемы:
Предшественник K8
Преемник 15h

AMD 10h — поколение архитектуры микропроцессоров x86 компании AMD, основанное на архитектуре поколения K8.

Особенности AMD 10h

Увеличена разрядность SSE блоков с 64 бит до 128 бит. Современные процессоры K8 при выполнении 128-битной SSE-операции вынуждены разбивать ее на две 64-битных и выполнять по очереди. Само дробление операции, кстати, тоже является операцией, поэтому налицо узкое место архитектуры. Таким образом, одна 128-битная SSE-инструкция требует от процессора K8 выполнения минимум трех операций.

  • Чипы 10h могут выполнять 64-битные SSE-инструкции как одну. Именно поэтому увеличение разрядности SSE-блоков так важно и производительность должна вырасти довольно значительно.
  • Увеличена разрядность интерфейса между SSE-блоками и кэшем данных первого уровня. Теперь за один такт стала возможной загрузка двух 128-битных инструкций за такт против двух 64-битных у K8.
  • Связь между кэшем L2 и контроллером памяти также увеличила разрядность и теперь составляет 128 бит.
  • Поддерживаются инструкции SSE4a, которые, помимо стандартного набора, включают: комбинированный набор инструкций (EXTRQ/INSERTQ) и векторные потоковые инструкции (MOVNTSD/MOVNTSS).

Улучшенное предсказание ветвлений

Архитектура 10h позволяет отслеживать гораздо больше переходов и ветвлений, за счет чего повышается точность предсказаний. А чем точнее предсказания переходов, тем более полно процессор способен загрузить работой свои исполнительные блоки. Также вдвое в сравнении с K8 увеличен размер стека возврата. У K8 при выполнении длинной цепочки запросов возможна ситуация, когда места для записи начального адреса в стеке возврата не хватает и тогда предсказания ветвлений становятся невозможными. Теперь вероятность этого значительно снизилась.

Внеочередная загрузка команд способна повысить производительность

В процессорах архитектуры K8, а также Intel NetBurst (Pentium 4) процессор выгружает обработанные данные только после получения новых, что несколько снижает производительность. Часть исполнительных блоков процессора простаивает. Архитектура 10h дает возможность загружать новые данные до выгрузки обработанных. Подобное отличие существует и между архитектурами NetBurst и Core, но реализация технологии у AMD и Intel разная. Если у Intel используется предсказатель, который предотвращает опережение загрузки данных над их выгрузкой из одной и той же ячейки памяти, то чипы AMD адрес выгрузки рассчитывают, что исключает возможность ошибки. Если подобная ошибка происходит, то данные будут потеряны и выполнение команды придется начинать сначала. Реализация технологии внеочередной загрузки команд у 10h выглядит привлекательней.

Работа с ОЗУ

Как известно, контроллер памяти в чипах K8 способен производить одновременно только чтение или только запись. Переключение с одной операции на другую вызывает нежелательные задержки. Контроллер памяти в процессорах новой архитектуры также способен одновременно производить только один тип операций, но оснащен специальным буфером. В него предварительно записываются команды на запись, которые начнут выполняться после заполнения буфера до определенного уровня. Данное решение должно снизить задержки при работе с памятью. Также надо отметить, что процессоры K8 имеют один 128-битный контроллер памяти, в то время как чипы 10h обзаведутся двумя 64-разрядными контроллерами. Данное решение особенно кстати должно придтись четырехъядерным процессорам, так как обладает большей гибкостью при работе с памятью. Адресация памяти 48-битная, что означает поддержку 256 Тб ОЗУ.

Новые блоки предвыборки

Также как и чипы K8, 10h имеют по два блока предвыборки на ядро (для данных и для инструкций), но сами блоки улучшены. Главное нововведение — теперь блоки предвыборки могут записывать данные непосредственно в кэш L1, а не в L2, что, несомненно, ускорит работу. Также в чипах 10h появился новый блок предвыборки. Расположен он непосредственно в контроллере памяти и называется блоком предвыборки DRAM. Этот блок анализирует запросы к памяти, предсказывает, какие данные понадобятся процессору, и извлекает их в собственный буфер, не занимая объем кэша. Предсказание инструкций стало 32-байтным против 16-байтного в K8.

Кэш третьего уровня

Процессоры архитектуры 10h получат кэш-память третьего уровня объемом 2 Мб. Кэш L3 будет общим, то есть использовать его смогут все ядра процессора. Объем кэша L2 останется прежним — 512 Кб на ядро. Схема работы кэшей проста: те данные, что используются наиболее часто, располагаются в кэше L1, те, что туда не входят, помещаются в L2 и, наконец, наименее используемые данные выводятся в кэш L3.

Архитектура AMD 10h

В процессорах 10h все ядра выполнены на одном кристалле и снабжены выделенной кэш-памятью L2. В чипах Phenom/Phenom 2 и серверных Opteron также предусмотрена общая для всех ядер кэш-память L3, объём которой составляет от 2 до 6 Мбайт. Важное преимущество 10h – новая системная шина HyperTransport 3.0 с пиковой пропускной способностью до 41,6 Гбайт/с в обоих направлениях в 32-битном режиме или до 10,4 Гбайт/с в одном направлении в 16-битном режиме и частотой до 2,6 ГГц. Напомним, что максимальная рабочая частота предыдущей версии HyperTransport 2.0 составляет 1,4 ГГц, а пиковая пропускная способность – до 22,4 или 5,6 Гбайт/с.

Широкая шина особенно важна для многоядерных процессоров, при этом в HyperTransport 3.0 предусмотрена возможность конфигурации канала, что позволяет предоставить каждому ядру собственную независимую линию. Кроме того, процессор 10h способен динамически изменять ширину и рабочую частоту шины пропорционально собственной частоте. При этом нужно отметить, что в настоящее время в чипах AMD шина HyperTransport 3.0 работает с намного меньшей скоростью, чем максимально допустимая. В зависимости от модели применяются три режима: 1,6 ГГц и 6,4 Гбайт/с, 1,8 ГГц и 7,2 Гбайт/с и 2 ГГц и 8,0 Гбайт/с. В выпускаемых чипах пока не используются ещё два заложенных в стандарт режима – 2,4 ГГц и 9,6 Гбайт/с и 2,6 ГГц и 10,4 Гбайт/с. В процессоры 10h встраиваются два независимых контроллера оперативной памяти, что ускоряет доступ к модулям в реальных условиях эксплуатации. Контроллеры способны работать с памятью DDR2-1066 (модели для разъёма AM2+ и AM3) или DDR3 (чипы для разъёма AM3). Поскольку интегрированный в Phenom II и Athlon II для Socket AM3 контроллер поддерживает оба типа оперативной памяти, а разъём AM3 обратно совместим с AM2+, новые ЦП могут устанавливаться на старые платы для AM2+ и работать с памятью DDR2. Это означает, что при покупке Phenom II для апгрейда вам не придётся сразу же менять и системную плату, а также приобретать оперативную память другого типа – как, например, в случае с чипами Intel i3/i5/i7.

Amd.jpg

В микропроцессорах с архитектурой 10h реализован целый набор модернизированных технологий энергосбережения – AMD Cool'n'Quiet, CoolCore, Independent Dynamic Core и Dual Dynamic Power Management. Эта сложная система позволяет автоматически снижать энергопотребление всего чипа в режиме простоя, обеспечивает независимое управление питанием контроллера памяти и ядер и способна отключать неиспользуемые элементы процессора.

Amd2.jpg

Наконец, сами ядра также были существенно усовершенствованы. Была переработана конструкция блоков выборки, предсказания переходов и ветвлений, диспетчеризации, что позволило оптимизировать загрузку ядра и в конечном итоге повысить производительность. Разрядность блоков SSE была увеличена с 64 до 128 бит, появилась возможность выполнять 64-разрядные инструкции как одну, быда добавлена поддержка двух дополнительных инструкций SSE4a (не путать с наборами инструкций SSE4.1 и 4.2 в процессорах Intel Core). Здесь необходимо упомянуть о конструктивном дефекте, выявленном в серверных Opteron (кодовое название Barcelona) и в Phenom X4 и X3 первых выпусков – так называемой "ошибке TLB", которая в своё время привела к полному прекращению поставок всех Opteron ревизии B2. В очень редких случаях при высокой загрузке из-за конструктивного недостатка блока TLD кэш-памяти L3 система могла вести себя нестабильно и непредсказуемо. Дефект был признан критически важным для серверных систем, из-за чего и была приостановлена отгрузка всех выпущенных Opteron. Для десктопных Phenom был выпущен специальный патч, отключающий средствами BIOS дефектный блок, но при этом производительность процессора заметно падала. С переходом на ревизию B3 проблема была полностью устранена, и в продаже такие чипы уже давно не встречаются.

Процессоры с ядром 10h

С появлением процессоров поколения 10Н в ассортименте AMD изменились также их обозначения — под новыми обозначениями скрываются как модели, основанные на 10h, так и на AMD K8.

Серия процессоров Обозначение
Phenom X4 quad-core (Agena) X4 9хх0
Phenom X3 triple-core (Toliman) X3 8хх0
Athlon dual-core (Kuma) 7хх0
Athlon single-core (Lima) 1хх0
Sempron single-core (Sparta) 1хх0

Ссылки