СКИФ МГУ

Материал из Национальной библиотеки им. Н. Э. Баумана
Последнее изменение этой страницы: 17:54, 14 января 2019.
«СКИФ-ГРИД»
Skif.jpeg
Разработчик специалисты Института программных систем (ИПС) имени А.К.Айламазяна Российской Академии наук и Объединенного института проблем информатики (ОИПИ) Национальной академии наук Белоруссии.
Тип Суперкомпьютер
Дата выпуска 19 марта 2008 года;
Операционная система отечественный кластерный дистрибутив операционной системы Linux


Суперкомпьютер, созданный российскими и белорусскими учеными и специалистами.

Общая информация

Суперкомпьютеры семейства «СКИФ» создавались в рамках суперкомпьютерных программ Союзного государства «СКИФ» и «СКИФ-ГРИД». Это крупные, комплексные научно-технические программы Союзного государства, связанные с разработкой и исследованиями на всех уровнях суперкомпьютерных и грид-технологий: аппаратные средства, операционные системы, системы параллельного программирования и различные приложения, сервисы и т.п. Программа «СКИФ» исполнялась в 2000–2004 годах, в ней участвовало примерно по десять организаций от России и Белоруссии, объем из бюджетов обеих стран составил около 250 млн. рублей. По составу работ, финансированию и составу исполнителей Программа «СКИФ- ГРИД» в 2,5–3 раза крупнее программы «СКИФ». Работы в программе «СКИФ-ГРИД» велись по четырем направлениям: грид-технологии; суперкомпьютеры; информационная безопасность; приложения. В данной статье мы остановимся только на втором направлении. Головным исполнителем от России в обеих программах являлся ИПС имени А.К. Айламазяна РАН. Суперкомпьютерные программы «СКИФ» и «СКИФ-ГРИД» внесли серьезный вклад в развитие суперкомпьютерной отрасли и суперкомпьютерного рынка России: • за время выполнения программ «СКИФ» и «СКИФ-ГРИД» семь систем семейства «СКИФ» 18 раз вошли в престижный всемирный рейтинг супер ЭВМ Top500 (с максимально высокой позицией № 36 в июне 2008):

  1. СКИФ-Аврора ЮУрГУ (модель СКИФ 4/В), 100.4/117.0 Tflops2 — 06'2011 № 87, 11'2011 № 121;
  2. СКИФ-Аврора ЮУрГУ (модель СКИФ 4/Н), 21.8/243 Tflops — 11'2009 № 450;
  3. СКИФ МГУ «Чебышёв», 47.17/60 Tflops — 06’2008 № 36, 11’2008 № 54, 06'2009 № 82, 11'2009 № 103; 06'2010 № 121; 11'2010 № 179, 06'2010 № 353;
  4. СКИФ Урал, 12.2/15.94 Tflops — 06’2008 № 283;
  5. СКИФ Cyberia, 9.01/12 Tflops — 06’2007 № 105, 11’2007 № 200, 06’2008 № 485;
  6. СКИФ К-1000, 2.032/2.534 Tflops — 11’2003 № 98, 06’2005 № 182, 11’2005 № 331, 06’2006 № 489;
  7. СКИФ К-500, 0.424/0.717 Tflops — 11’2003 № 406;

В последние годы 75–80% суперкомпьютеров отечественной разработки обеспечиваются супер ЭВМ семейства СКИФ и установками с использованием технологических решений семейства СКИФ. За время выполнения программ «СКИФ» и «СКИФ-ГРИД» команда исполнителей — СКИФ-кооперация,— прошла большой путь. В части разработки суперкомпьютеров семейства «СКИФ» этот путь можно поделить на некие этапы, посвященные созданию определенного ряда суперкомпьютеров семейства «СКИФ». Каждому ряду соответствуют:

  • некоторый временной отрезок разработки и выпуска моделей данного ряда;
  • максимальная производительность, достижимая для изделий данного ряда;
  • используемые технологические решения.

Первые установки были относительно просты, но они дали нам возможность освоить решения, которые для зарубежных коллег были стандартными и рутинными. Затем появились и крупные проекты, такие как СКИФ К-500, СКИФ К-1000, СКИФ МГУ (названный впоследствии «Чебышёв»). Некоторые системы попадали в мировой рейтинг пятисот самых мощных машин в мире — Тор 500. Переход от ряда к ряду характеризовался серьёзными усовершенствованиями по тем или иным направлениям. В установках «СКИФ» всегда применялись современные процессоры, которые предоставляла индустрия. От модели к модели совершенствовались системная сеть (интерконнект, сеть, используемая для организации параллельного счета) и вспомогательная TCP/IP сеть, используемая для организации файловых обменов и управления. В части системной сети использовались как самые производительные готовые коммерчески доступные решения, так и выполнялись работы по реализации отечественного интерконнекта. Системной сети вообще уделялось повышенное внимание при проектировании каждой машины.[Источник 1]


Ряд Годы и пиковая производительность Ядер в CPU / разрядность Сетевые решения Форм- фактор;CPU/U Примечания
1 2000–2003 ;20–500 GFlops 1/32 Fast Ethernet, SCI (2D-тор), Myrinet 4U–1U; 0.5–2 Отечественная системная сеть SCI (2D-тор)
2 2003–2007; 0.1–5 Tflops 1/32–64 GB Ethernet, SCI (3D-тор), InfiniBand 1U, Hyper- Blade 2 Сеть управления: ServNet v.1 и v.2. Ускорители: FPGA, ОВС
3 2007–2008; 5–150 Tflops 2–4/64 GB Ethernet, InfiniBand DDR 1U, blades 2–4 Сеть управления: ServNet v.3, Три контура охлаждения: воз-дух–вода–фреон
4 2009–2012; ~0.5–5 Pflops 4–12/64 InfiniBand QDR, отечественная системная сеть 3D-тор Сверхплотная упаковка, blades10.7 Сеть управления: ServNet v.4 Ускорители: FPGA, GPU, МЦОС

Логика разработки суперкомпьютеров «СКИФ» ряда 4

Суперкомпьютеры «СКИФ» ряда 4 создавались в рамках выполнения суперкомпьютерной программы «СКИФ-ГРИД» Союзного государства. Они являются результатом работы большого коллектива специалистов из России и Белоруссии. Непосредственно в разработке суперкомпьютеров «СКИФ» ряда 4 участвовали группы из семи организаций: ИПС имени А.К. Айламазяна РАН (головной), ЮУрГУ, ЗАО «РСК СКИФ», ОАО «НИЦЭВТ», ООО «Альт Линукс Технолоджи», ОИПИ НАН Беларуси, ИПМ имени М.В.Келдыша РАН. В создании, адаптации и оптимизации системного и прикладного программного обеспечения для суперкомпьютеров «СКИФ» ряда 4 участвовали двадцать организаций: ИПС имени А.К. Айламазяна РАН, ИПМ им. М.В.Келдыша РАН, ИСА РАН, ИММ РАН, ГЦ РАН, ИКИ РАН, ИПХФ РАН, ИХФ РАН, ЮУрГУ, СПбГПУ, НИИ КС, ННГУ, ТГУ, УГАТУ, МТУСИ, ЧелГУ, ЗАО «РСК СКИФ», ООО «Альт Линукс Технолоджи», ЗАО «Каледин и Партнеры», ЗАО «Сигма технологии».

Целью разработки суперкомпьютеров ряда 4 семейства «СКИФ» было создание решения, масштабируемого до рекордных систем. То есть, надо было создать решения, позволяющие при наличии заказа и адекватного разумного финансирования реализовать систему уровня Top 1–5, что в 2009–2011 годах соответствует производительности 1– 5 Pflops. Данная цель — максимальное масштабирование, максимальная производительность,— определила логику разработки и принятия решений, которая и сформировала окончательный облик суперкомпьютеров «СКИФ» ряда 4:

  • Максимальное масштабирование, максимальная производительность влекут необходимость использования:
  1. системной сети с характеристиками, которые превышают характеристики коммерчески доступных решений. Поэтому была разработана отечественная системная сеть с топологией 3D-тор;
  2. сочетания лучших доступных стандартных i86 – 64 процессоров и ускорителей. Были серьезные причины того, что в качестве ускорителей нами использовались FPGA (обсуждено ниже).


Системная сеть с топологией 3D-тор и максимальное масштабирование влекут две новые проблемы:

  1. в системной сети 3D-тор требуется минимизировать длины соединительных линий, по возможности как можно большую их часть реализовать без кабелей и разъемов — на печатных платах. Тем самым, требуется максимизировать плотность упаковки электроники в единицу объема, создать установку с максимальной плотностью упаковки вычислительной мощности;
  2. рекордная установка будет иметь огромные размеры — десятки тысяч вычислительных узлов и других модулей. Потребовалось серьезное внимание уделить вопросам надежности, мониторинга и управления.

Для повышения надежности:

  1. были предприняты усилия по минимизации использования кабелей и разъемов в системе: память вычислительных узлов впаяна в материнскую плату, максимально возможное число соединительных линий реализованы на печатных платах в вычислительных узлах отказались от механических жестких дисков (элемент ненадежности и источник вибрации) и заменили их на твердотельные диски;
  2. была разработана оригинальная отечественная система мониторинга и управления суперкомпьютером.


Максимальная плотность упаковки электроники означает высокое тепловыделение в единице объема. Старые схемы охлаждения вычислителя оказываются не применимыми. В суперкомпьютерах «СКИФ» ряда 4 было принято решение и реализовано водяное охлаждение всей электроники вычислителя: вычислительных узлов, блоков питания, управляющих узлов. Водяное охлаждение, несомненно, усложнило разработку. Но оно привнесло и ряд технологических преимуществ:

  1. o отсутствие подвижных частей в вычислителе, отсутствие шума и вибрации. Это весьма позитивно сказывается на показателях надежности и эргономике установки;
  2. o высокая энергоэффективность системы в целом. Экономия 40–50% электроэнергии, по сравнению с системами с использованием воздуха в одном из контуров охлаждения. Экономия в оборудовании. Возможность использования простых схем рекуперации тепловой энергии.[Источник 1]

Основные модули и система охлаждения суперкомпьютеров «СКИФ» ряд 4

На первый, поверхностный взгляд, все выглядит достаточно стандартно: материнская плата собственной разработки, пара стандартных процессоров i86-64, память — для надежности впаяна в материнскую плату, разъем для твердотельного диска и т.д.

К совершенно непривычным техническим решениям следует отнести способ охлаждения электроники. На вычислительный узел накладывается так называемая охлаждающая пластина, имеющая такой профиль, что все электронные компоненты материнской платы надежно прижимаются к охлаждающей платине. Пластина имеет два разъемных водяных соединителя — входной и выходной quick-коннектор,— для подключения к системе водяного охлаждения установки. Естественно, в пластине имеется фигурная полость для протока воды от входного к выходному водяному разъему. Проходя по пластине, вода отнимает тепло, выделяемое электроникой, и уносит его в систему охлаждения. Заметим, что путь охлаждающей жидкости по плате вычислительного узла от впускного водяного разъема до выпускного весьма условно; проектирование оптимальной формы движения жидкости для наиболее эффективного охлаждения электроники — не простая задача. Основные модули и узлы вычислителя суперкомпьютеров «СКИФ» ряда 4: вычислительный узел, блок питания (48 V DC — 48 V DC, 6 КВатт), управляющий (корневой) узел. Один блок питания, один управляющий узел и 16 вычислительных узлов заполняют полушасси — основной модуль суперкомпьютера «СКИФ» ряда 4. Термин полушасси подчеркивает тот факт, что его глубина соответствует половинной глубине стандартной монтажной стойки.

Полушасси является минимальным «строительным блоком», из которого собирается установка. Вся электроника в полушасси охлаждается водой. Не требуется сохранять проход для воздуха через полушасси — спереди полушасси закрывается как крышкой сенсорным LCD экраном. Экран доступен для работы с корневого узла и в штатном режиме используется как устройство ввода/вывода системой управления и мониторинга суперкомпьютера. Полушасси потребляет до 6 КВатт электроэнергии (48 V DC) и имеет пиковую производительность от 1.5 Tflops (модель СКИФ 4/N, 16×2×4=128 ядер CPU в полушасси) до 2.6 Tflops (модель СКИФ 4/W, 16×2×6=192 ядра CPU в полушасси). Полушасси имеет высоту 6U и рассчитано для монтажа в стандартной монтажной стойке 48U. Так как глубина полушасси соответствует половинной глубине монтажной стойки и не требуется обеспечивать проход воздуха через монтажную стойку, то штатно в монтажной стойке 48U предусмотрена установка шестнадцати полушасси — восемь с одной стороны стойки и восемь — с другой. Каждое из шестнадцати полушасси содержит шестнадцать вычислительных модулей. В результате мы получаем монтажную стойку, в которой смонтированы 256 вычислительных модулей, содержащих 512 процессоров. Такая монтажная стойка потребляет 100 Кватт электроэнергии (48 V DC) и обеспечивает пиковую производительность от 24 Tflops (модель СКИФ 4/N, 16×16×2×4 = 2048 ядер CPU в стойке) до 41 Tflops (модель СКИФ 4/W, 16×16×2×6 = 3072 ядра CPU в стойке). Вся электроника охлаждается водой. Первый опытный образец суперкомпьютера «СКИФ» ряда 4 в масштабе одной монтажной стойки был установлен в суперкомпьютерном центре Южно-Уральского государственного университета — ЮУрГУ. Данная система была названа «СКИФ-Аврора ЮУрГУ». При пиковой производительности в 24 TFlops система показала 21.8 TFlops на тесте Lin- pack, что обеспечило ее вхождение в список Top500 на 450 место в ноябре 2009 года. Машинный зал установки площадью всего 30 кв. м, в центре которой рас- положена стойка вычислителя «СКИФ-Аврора ЮУрГУ», слева от которого расположена монтажная стойка с системой хранения данных и коммутаторами InfiniBand QDR.

По левой и правой стене машинного зала стоят распределительные шкафы системы электропитания и другое вспомогательное оборудование. Фронтальная и задняя сторона стойки с вычислителем является сенсорным мультиэкраном из 8 LCD-панелей с отображением информации о текущем состоянии системы и с управлением «на кончиках пальцев». Система абсолютно беззвучная, не содержит ни одной механически подвижной части. Монтажная стойка суперкомпьютера «СКИФ» ряда 4 сама по себе является модулем более высокого уровня. Если требуется вычислитель с производительностью больше, чем у одной стойки, то можно несколько стоек установить стена к стене, вдоль непрерывной линии и объединить в единую систему.[Источник 1]

Преимущества водяного охлаждения

Вычислители крупнейших суперкомпьютеров потребляют очень много электроэнергии — от единиц до десятков мегаватт. Вся эта энергия в вычислителе преобразуется в тепло, которое выводится из вычислителя системой охлаждения. Сегодня в большинстве систем охлаждения вычислителей используется несколько контуров с теплообменниками, причем контур, непосредственно контактирующий с электроникой — воздушный.

Системы охлаждения, содержащие воздушный контур, имеют несколько слабых черт:

  • Такие системы приводят к значительным затратам электроэнергии на охлаждение. В современных суперкомпьютерах, чтобы охладить вычислитель 100 КВатт, требуется затратить около 60 КВатт на систему охлаждения. Таким образом, на подобные системы охлаждения тратится от 45% до 50% подведенной к суперкомпьютерному центру электрической мощности;
  • Кроме подведенной мощности на систему охлаждения тратятся и другие ресурсы суперкомпьютерного центра. Например, в крупных установках сегодня более половины всей установочной площади используется не для размещения аппаратуры, а для её охлаждения. Так, по результатам анализа документации одного из крупнейшего Российского суперкомпьютерного центра было определено, что:
  1. в машинном зале электроника вычислителя занимает 39 кв.м. и весит 50 500 кг;
  2. в машинном зале компоненты подсистемы охлаждения (горячий коридор, внутрирядные кондиционеры) занимают 40 кв.м. и весят 14 800 кг;
  3. вне стен машинного зала компоненты подсистемы охлаждения (чилеры, резерв холодной воды и т.п.) занимают еще 800 кв.м. и весят 180 000 кг;
  • Низкая теплоемкость воздуха сильно снижает надежность охлаждения — в случае да- же кратковременной остановки потока воздуха электроника быстро перегревается и может выйти из строя;
  • В воздушном контуре для организации движения воздуха используются вентиляторы и мощные потоки воздуха. Это приводит в больших установках к низкой эргономике (шум, часто опасный для органов слуха человека), вибрации и ветровой нагрузке на печатные платы, контакты и кабели;
  • Трудно организовать движение воздуха (как и любого газа) по траекториям, оптимальным для охлаждения электроники;
  • Воздухом, из-за его низкой теплоемкости, сложно (а часто просто невозможно) охладить современные установки, с высокой плотностью тепловыделения.

С учетом сказанного, большинство разработчиков перспективных суперкомпьютеров исследуют новые схемы охлаждения. И одним из самых популярных направлений здесь является разработка систем водяного (жидкостного) охлаждения. Большинство преимуществ водяного охлаждения вытекают из того, что теплоемкость кубометра воды 4 000 раз выше, чем теплоемкость кубометра воздуха и вода является жидкостью, а не газом. Поэтому в системе с жидкостным (водяным) охлаждением мы сразу получаем: повышение надежности охлаждения — даже остановившаяся жидкость некоторое время успешно отводит тепло от электроники за счет своей высокой теплоемкости.

  • Несложно организовать движение жидкости таким образом, чтобы обеспечить оптимальный отвод тепла от электроники.
  • Не требуется для организации системы охлаждения тратить площадь машинного зала (на горячие коридоры, на внутрирядные кондиционеры).
  • Можно использовать схемы с одним или максимум с двумя контурами охлаждения. В каждом контуре достаточно иметь одну помповую станцию с дублированием. Помповую станцию легко вынести из вычислителя и, тем самым, полностью убрать шум и вибрацию.
  • Охлаждение может быть обеспечено горячей водой и это проверено в суперкомпьютерах «СКИФ» ряда 4. При этом на входе в систему используется вода с температурой 50°C, а на выходе — 55°C. В этом случае все расходы на охлаждение можно свести практически к нулю, и для охлаждения нагретой воды (с 55°C до 50°C) могут использоваться как схемы с рекуперацией тепла, так и схемы «free cooling» — пассивные радиаторы, сухие градирни и другие устройства, позволяющие отдать тепло от воды с температурой 55°C в окружающую среду.[Источник 1]

Вычислительный модуль суперкомпьютера «СКИФ» ряда 4

Вычислительный модуль суперкомпьютера «СКИФ» ряда 4 содержит:

  • два современных процессора Intel® Xeon® — Nehalem с 4 ядрами в моделях СКИФ 4/N; Westmare с 6 ядрами СКИФ 4/W;
  • микросхему FPGA Altera Stratix IV, которая используется как FPGA-ускоритель и для реализации маршрутизатора отечественной системной сети «SKIF 3D-torus»;
  • шесть трансиверов системной сети «SKIF 3D-torus», каждый из которых обеспечивает пропускную способность 10 Gbps — то есть суммарно 60 Gbps в каждом узле систем- ной сети «SKIF 3D-torus»;
  • микросхема сетевого адаптера InfiniBand QDR. Отметим несколько обстоятельств:
  1. Вспомогательная сеть InfiniBand QDR используется для реализации TCP/IP сети для обмена файлами, управления задачами и т.п. Сетевой адаптер InfiniBand QDR имеет пропускную способность 40 Gbps и подключен к вычислительному узлу одинарной связью PCI Express Gen2, имеющей пропускную способность 40 Gbps;
  2. FPGA подключен к вычислительному узлу двойной связью PCI Express Gen2 с пропуск- ной способность 80 Gbps. В этой связи только 60 Gbps в пределе может потребоваться на поддержку обменов с системной сетью «SKIF 3D-torus».[Источник 1]

Отечественная системная сеть «SKIF 3D-torus»

Максимальное масштабирование и максимальная производительность, поставленные как цели разработки суперкомпьютеров «СКИФ» ряда 4, повлекли за собою необходимость разработки собственной системной сети с характеристиками — пропускная способность, темп выдачи сообщений, задержка,— которые превышают характеристики коммерчески доступных решений. В результате этого была создана отечественная системная сеть «SKIF 3D-torus» с топологией трехмерного тора. Трехмерный тор является хорошо масштабируемой топологией системной сети. Кроме того, для задач, связанных с моделированием процессов нашего реального трехмерного мира такая топология позволяет естественным образом отобразить задачу на системную сеть суперкомпьютера. Серьезным преимуществом отечественной системной сети «SKIF 3D-torus» является ее гибкость, что включает в себя несколько обстоятельств:

  • Сеть поддерживает разбиение ее на несвязанные трехмерные подторы меньшего размера и предоставление каждой решаемой задачи ее собственной системной под-сети. Это повышает эффективность работы сети и исключает взаимное влияние одной задачи на другую.
  • Маршрутизаторы сети реализованы в FPGA и, тем самым, поддерживают:
  • o гибкую перенастройку. Это обеспечивает возможность одновременной поддержки разных алгоритмов маршрутизации и даже создания алгоритмов маршрутизации, учитывающих ту или иную специфику задачи;
  • o гибкую аппаратную поддержку перспективных технологий организации параллельного счета и аппаратную поддержку операций, отличных от чистых операций передачи данных — например, поддержку вычислений во время передачи, поддержку примитивов класса all–reduce в сети, без использования процессоров вычислительных узлов.

Организация физических связей в отечественной системной сети «SKIF 3D-torus» очень хорошо отображена на различные уровни модульной конструкции суперкомпьютеров «СКИФ» ряда 4:

  • первое измерение 3D-тора — ось X,— реализовано без кабелей — на соединительной панели полушасси и представляет из себя кольцо, включающее в себя шестнадцать вычислительных узлов в полушасси. Тем самым в каждом полушасси сформирован одномерный тор (кольцо) размером 16;
  • второе измерение 3D-тора — ось Y,— реализовано кабельным соединением в кольцо шестнадцати корзин, смонтированных в стойке. Тем самым в каждой стойке сформирован двумерный тор размером 16×16;
  • третье измерение 3D-тора — ось Z,— реализовано кабельным соединением нескольких стоек, расположенных вдоль некоторой непрерывной линии. Тем самым в системе формируется трехмерный тор размером 16×16×N, где N — количество стоек в системе.

Данное решение позволило унифицировать кабельное хозяйство — во всей системе используются кабели одной и той же длины.

Стек программного обеспечения системной сети «SKIF 3D-torus» Схемная реализация (на языке VHDL) маршрутизатора на базе FPGA и весь стек программного обеспечения системной сети «SKIF 3D-torus» реализован в Институте программных систем имени А.К. Айламазяна РАН и (в части реализации библиотек SKIF- ARMCI, SKIF-GASNET) в ОАО «НИЦЭВТ». На нижнем уровне стека находится драйвер SKIF-Driver для ОС «ALT Linux SKIF Cluster» и коммуникационная библиотека SkifCh, поддерживающие примитивы работы с маршрутизатором. Над этим уровнем надстроена реализация:

  • SKIF-MPI — реализация стандартной библиотеки MPI версии 2;
  • SKIF-SHMEM — реализация библиотеки, подобной библиотеке SHMEM компании CRAY;
  • SKIF-ARMCI, SKIF-GASNET — реализация стандартных библиотек ARMCI, GASNET . Подчеркнем, что отдавая дань поставленной цели — максимальное масштабирование и максимальная производительность,— были потрачены усилия на эффективную поддержку как прежней технологии параллельных вычислений (MPI), так и перспективных — SHMEM, ARMCI, GASNET и PGAS, что является базисом для перспективных языков и систем программирования: Unified Parallel C, Co-array Fortran, Titanium, Fortress, Chapel и др.

Технологические решения семейства «СКИФ» широко использовались во многих российских разработках за рамками программ «СКИФ» и «СКИФ-ГРИД». Новый яркий пример этого: в суперкомпьютере К-100 (41.1/107.9 Tflops, 2011 год, ИПМ имени М.В.Келдыша РАН, НИИ «Квант») для оригинальной отечественной системной сети «МВС- экспресс» был осуществлен перенос (с минимальной адаптацией) всего стека ПО «SKIF 3D- torus».

Технические характеристики системной сети «SKIF-3D-torus» Разработанная в рамках программы «СКИФ-ГРИД» отечественная системная сеть «SKIF-3D-torus» показала следующие результаты — в сравнении с лучшим на сегодня коммерчески доступным решением InfiniBand QDR:

  • пропускная способность 60 Gbps — в 1,5 раза выше, чем у InfiniBand QDR;
  • темп выдачи сообщений 14 MT/s — примерно в 4–5 раз лучше, чем у InfiniBand QDR;
  • задержка около 1–1.5 μs — сравнимо с InfiniBand QDR.

Отметим, что у современных приложений и перспективных подходов к организации параллельного счета высокие требования именно к темпу выдачи сообщений все чаще выходят на первый план.

Перспективы развития системной сети «SKIF-3D-torus» Следующие направления работ являются перспективным развитием системной сети «SKIF-3D-torus»:

  • реализация аппаратной поддержки коллективных операций — например, эффективная реализация традиционно «тяжёлых» операций MPI «all-reduce»;
  • более эффективная аппаратная поддержка реализации парадигм SHMEM, GASNET и PGAS;
  • специализация маршрутизатора под различные задачи — система со специализируемым под нужды конкретной задачи маршрутизатором могла бы сочетать в себе положительные стороны универсальной и специализированной машин, не унаследовав недостатков этих подходов.[Источник 1]

Использование ускорителей в суперкомпьютерах «СКИФ» ряда 4

Сегодня многие разработчики суперкомпьютеров используют ускорители с фиксированной архитектурой, такие как GPGPU, ClearSpeed, Cell и др. Такие ускорители, в силу специализации (то есть, оптимизации) своей архитектуры под специфику целевого узкого класса задач:

  • в своей области специализации — на задачах из узкого целевого класса,— являются существенно более эффективными, чем универсальные вычислители;
  • вне своей области специализации — на задачах, не входящих в их узкий целевой класс,— являются существенно менее эффективными, чем универсальные вычислите- ли.

В суперкомпьютерах «СКИФ» ряда 4 в качестве ускорителя используется FPGA. Для такого решения имеется ряд предпосылок. Во-первых, FPGA можно рассматривать как реконфигурируемый ускоритель, у которого нет никакой архитектуры до той поры, пока его не запрограммировали. Таким образом, можно создавать свою собственную архитектуру ускорителя буквально для каждой задачи. В результате можно получить ускоритель, наиболее адекватно отражающий специфику решаемой задачи. Во-вторых, FPGA уже имеется в составе каждого вычислительного модуля суперкомпьютера «СКИФ» ряда 4 и для реализации маршрутизатора системной сети «SKIF-3D- Torus» использовано весьма немного ресурсов (памяти, логических элементов) FPGA: 5– 10%. Большая часть ресурсов не использована и может быть задействована для реализации ускорителей, специализированных под ту или иную задачу. Суперкомпьютеры «СКИФ» ряда 4 не первые системы, где в качестве ускорителей используются FPGA. Примерами таких решений являются, например, суперкомпьютеры

CRAY XD1 (и другие изделия семейства Cray XD*), SGI Origin 2000/3000 + SGI Tensor Processing Unit, SGI Altix+FPGA RASC (Reconfigurable Application Specific Computing) и т.п. В силу своей исключительной эффективности подобные решения подпадают под ограничения на поставки в Россию. Однако во всех подобных системах FPGA-ускорители организованы следующим образом:

  • в каждом вычислительном узле имеется свой FPGA-ускоритель;
  • FPGA-ускоритель может взаимодействовать только с соответствующей стандартной частью (со стандартным процессором) вычислительного узла;
  • два FPGA-ускорителя не могут обмениваться данными между собою напрямую, только посредством нескольких косвенных передач: FPGA — стандартный процессор — системная сеть — стандартный процессор — FPGA.

Особенностью суперкомпьютеров «СКИФ» ряда 4 является то, что именно FPGA связаны между собою в системную сеть «SKIF 3D-torus». Тем самым, FPGA-ускорители могут обмениваться данными между собою напрямую, не вмешивая в этот процесс стандартные части своих вычислительных модулей. Это новая архитектура, новые возможности, которые еще предстоит до конца осмыслить и использовать в интересах решения конкретных задач. Однако уже первые эксперименты с FPGA-ускорителями суперкомпьютеров «СКИФ» ряда 4 показали их высокую эффективность: задачи численных расчетов с плавающей точкой с двойной точностью выполнялись на FPGA-ускорителе в 4 раза быстрее, чем на двух процессорах (то есть на 8 ядрах — пиковая производительность 94 Gflops) Intel Nehalem. Если положить, что это дает нам основание оценить пиковую производительность одного FPGA как 0.375 Tflops, то пиковая производительность всех FPGA-ускорителей из одной стойки суперкомпьютера «СКИФ» ряда 4 составит 96 Tflops. Неплохая добавка к производительности стандартной части этой же стойки — 41 Tflops.[Источник 1]

Подсистема мониторинга и управления суперкомпьютеров «СКИФ» ряда 4

Для поддержки возможности создания рекордных установок в рамках разработки суперкомпьютеров «СКИФ» ряда 4 пришлось создать уникальную подсистему мониторинга и управления суперкомпьютером. Данная подсистема состоит из трех взаимодействующих, но независимых (способны работать самостоятельно, в некоторой части дублируя друг друга) уровней:

  • уровень 1 — охватывает вычислительные модули, использует сеть TCP/IP поверх Infi- niBand QDR, реализует все возможности стандарта IPMI;
  • уровень 2 — охватывает вычислительные модули и блоки питания, использует сеть TCP/IP поверх InfiniBand QDR, реализует селективную сериальную консоль к любому вычислительному узлу, возможность включить или выключить (непосредственно на блоке питания) электропитание на любом вычислительном узле, на группе из 8 вычислительных узлов, на корневом узле;
  • уровень 3 — независимая сенсорная сеть СКИФ ServNet v.4, охватывающая все блоки электропитания, все корневые и вычислительные узлы, использует выделенную сеть передачи данных с резервными каналами, содержит независимые сенсоры темпера- туры, протечек и влажности, уровней напряжения в разных точках системы, механизмы включения/выключения (непосредственно на блоке питания) электропитания на любой группе из 8 вычислительных узлов и на корневом узле.

Сенсорная сеть СКИФ ServNet v.4 имеет свою собственную систему гарантированно- го электропитания. Электропотребление СКИФ ServNet v.4 — около 3 Ватт на стойку. СКИФ ServNet v.4 является интеллектуальной сенсорной сетью: в каждом узле этой сенсорной сети — а они расположены в каждом блоке электропитания, в каждом корневом или вычислительном узле,— имеется микроконтроллер или микропроцессор, поддерживающий возможности:

  • дистанционного перепрограммирования;
  • передачи в центральный сервер подсистемы мониторинга и управления информации и исполнения команд от центрального сервера;
  • локального автономного принятия решения и реализации действий по предотвращению нежелательных последствий нештатных ситуаций — в случаях отсутствия связи с центральным сервером.

Центральный сервер подсистемы мониторинга и управления реализует сбор, хранение и обработку информации от всех уровней подсистемы мониторинга, визуализацию, обнаружение нештатных ситуаций, прогноз нештатных ситуаций, оповещение персонала, автономное принятие решения и реализации действий по предотвращению нежелательных последствий нештатных ситуаций. В целом в суперкомпьютерах «СКИФ» ряда 4 реализована уникальная отечественная система мониторинга и управления с тройным резервированием и очень высокой степенью надежности.[Источник 1]

Общая характеристика

Пиковая производительность 60 TFlop/s
Производительность на Linpack 47.04 TFlop/s (78.4% от пиковой)
Число процессоров/ядер в системе 1250 / 5000
Модель процессора Intel Xeon E5472 3.0 ГГц
Объём оперативной памяти 5.5 Тбайт
Дисковая память узлов 15 Тбайт
Число стоек всего/вычислительных 42 / 14
Число блэйд-шасси/вычислительных узлов 63 / 625
Производитель Т-Платформы

Вычислительные узлы и сети

Группы вычислительных узлов:

S 8 узлов 2 процессора, 32 Гбайт HDD 160 Гбайт
A 32 узла 2 процессора, 16 Гбайт HDD 160 Гбайт
B 64 узла 2 процессора, 8 Гбайт HDD 160 Гбайт
C 529 узлов 2 процессора, 8 Гбайт

Системная сеть: InfiniBand DDR (Mellanox ConnectX) (Fat Tree: 6x144 порта; латентность на уровне MPI: 1.3-1.95 мкс; скорость обмена на уровне MPI: 1540 Мбайт/с) Вспомогательная сеть: Gigabit Ethernet (2x(336 портов+4x10G) + 2x(48 портов+4x10G) + 24x10G) Управляющая сеть: СКИФ-ServNet+IPMI

Инфраструктура суперкомпьютера

Суперкомпьютер СКИФ МГУ "ЧЕБЫШЁВ" обладает уникальной информационно-вычислительной и инженерной инфраструктурой, необходимой для надёжной круглосуточной работы комплекса.

Дисковая система хранения данных: T-Platforms ReadyStorage ActiveScale Cluster
Объём дисковой системы 60 Тбайт
Ленточная система резервного копирования данных Quantum Scalar i500
Общая занимаемая площадь 96 м2
Общий вес 30 т
Номинальное энергопотребление компьютера 330 кВт
Общее энергопотребление комплекса 720 кВт
Суммарная длина кабельных соединений более 2 км

Система бесперебойного электропитания:

Тип on-line
Исполнение модульное
Максимальная установленная мощность 400 кВт
Количество монтажных шкафов 20
Максимальная мощность 400 кВт
Резервирование N+1, "горячая замена" компонентов

Климатическая система:

Тип модульная внутрирядная
Холодопроизводительность 400 кВт
Резервирование N+1
Теплоноситель внешнего контура охлаждения фреон
Теплоноситель внутреннего контура охлаждения вода+этиленгликоль
Количество рядных кондиционеров 8
Количество холодильных машин 3

Также реализованы подсистемы хранения и резервного копирования данных, газового пожаротушения, мониторинга, резервирование всех основных компонентов.[Источник 2]

Источники

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 Суперкомпьютеры «СКИФ» ряда 4 // ИПС имени А. К. Айламазяна РАН [2010—2011]. URL: http://www.hpc-platform.ru/tiki-download_file.php?fileId=91 (дата обращения: 20.12.2019).
  2. Суперкомпьютер СКИФ МГУ "ЧЕБЫШЁВ" // Лаборатории Параллельных информационных технологий НИВЦ МГУ. URL: https://parallel.ru/cluster/skif_msu.html (дата обращения: 26.11.2018).

Ссылки