Главная » Статьи » Полезные статьи » Компьютеры и Интернет |
Суперкомпьютер своими руками
В статье рассмотрены способы аппаратного построения высокопроизводительных вычислительных комплексов. Одно из интересных применений – криптография. Например, благодаря современным технологиям, любому стал доступен взлом MD5 или WPA. Если постараться (информацию быстро выпиливают), в Интернете можно найти способ взлома алгоритма A5/2, используемого в GSM. Другое применение – инженерные, финансовые, медицинские расчеты, биткойнмайнинг.Немного историиДатой первого письменного упоминания о суперкомпьютерах можно считать 1 марта 1920 года. Нью Йоркские газеты писали о машинах мощностью в сто математиков. Это были табуляторы – электромеханические вычислительные машины, производимые компанией IBM (которая тогда называлась еще CTR). В дальнейшем вычислительные машины стали электронными. На рынке суперкомпьютеров образовалось несколько игроков, таких как Cray, HP, IBM, Nec. Эти компьютеры имели векторные процессоры (то есть оперировали не отдельными числами, а векторами). Для коммуникации между вычислительными узлами использовались проприетарные технологии фирм-производителей. Например, одна из таких технологий – соединение процессоров по топологии четырехмерного тора — за этими словами скрывается очень простой смысл: каждый узел связан с шестью другими. Дальнейшее развитие суперкомпьютеров породило направление массово параллельных систем и кластеров. В кластерах как квинтэссенции этого направления используются примерно те же алгоритмы коммуникации между вычислительными узлами, что и в суперкомпьютерах, только на базе сетевых интерфейсов. Они и являются слабым местом таких систем. Помимо нестандартной (по сравнению с классической звездой) топологии сети как Fat Tree, «многомерный тор» или Dragonfly, требуются специальные коммутационные устройства.Касаясь взятой нами темы, нельзя не упомянуть, что сегодня одно из перспективных направлений развития суперкомпьютеров является использование в стандартной компьютерной архитектуре сопроцессоров, по архитектуре напоминающих видеокарты. Выбор процессораСегодня основные производители процессоров – это Intel и AMD. RISC-процессоры, такие как Power 7+, несмотря на привлекательность, достаточно экзотичны и дороги. Вот, например, не самая новая модель такого сервера стоит больше миллиона.(К слову, говоря, при этом есть возможность собрать недорогой и эффективный кластер из xbox 360 или PS3, процессоры там примерно как Power, и на миллион можно купить не одну приставку.) Исходя из этого отметим интересные по цене варианты построения высокопроизводительной системы. Разумеется, она должна быть многопроцессорной. У Intel для таких задач используются процессоры Xeon, у AMD – Opteron. Если много денегОтдельно отметим крайне дорогую, но производительную линейку процессоров на сокете Intel Xeon LGA1567. Топовый процессор этой серии – E7-8870 с десятью ядрами 2,4 ГГц. Его цена $4616. Для таких CPU фирмы HP и Supermicro выпускают! восьмипроцессорные! серверные шасси. Восемь 10-ядерных процессоров Xeon E7-8870 2.4 ГГц с поддержкой HyperThreading поддерживают 8*10*2=160 потоков, что в диспетчере задач Windows отображается как сто шестьдесят графиков загрузки процессоров, матрицей 10x16. Для того, чтобы восемь процессоров уместились в корпусе, их размещают не сразу на материнской плате, а на отдельных платах, которые втыкаются в материнскую плату. На фотографии показаны установленные в материнскую плату четыре платы с процессорами (по два на каждой). Это решение Supermicro. В решении HP на каждый процессор приходится своя плата. Стоимость решения HP составляет два-три миллиона, в зависимости от наполнения процессорами, памятью и прочим. Шасси от Supermicro стоит $10 000, что привлекательнее. Кроме того в Supermicro можно поставить четыре сопроцессорных платы расширения в порты PCI-Express x16 (кстати, еще останется место для Indiniband-адаптера чтобы собирать кластер из таких), а в HP только две. Таким образом, для создания суперкомпьютера восьмипроцессорная платформа от Supermicro привлекательнее. На следующем фото с выставки представлен суперкомпьютер в сборе с четырьмя GPU платами. Однако это очень дорого. Что подешевлеЗато есть перспектива сборки суперкомпьютера на более доступных процессорах AMD Opteron G34, Intel Xeon LGA2011 и LGA 1366.Чтобы выбрать конкретную модель, я составил таблицу, в которой сосчитал для каждого процессора показатель цена/(число ядер*частота). Я отбросил из расчета процессоры частотой ниже 2 ГГц, и для Intel — с шиной ниже 6,4GT/s.
Жирным курсивом выделена модель с минимальным показателем соотношения, подчеркнутым – самый мощный AMD и на мой взгляд наиболее близкий по производительности Xeon. Таким, образом, мой выбор процессоров для суперкомпьютера – Opteron 6386 SE, Opteron 6344, Xeon E5-2687W и Xeon E5-2630. Материнские платыPICMGНа обычные материнские платы невозможно поставить более четырех двухслотовых плат расширения. Есть и другая архитектура – использование кросс-плат, таких как BPG8032 PCI Express Backplane.В такую плату ставятся платы расширения PCI Express и одна процессорная плата, чем-то похожая на те, которые установлены в восьмипроцессорных серверах на базе Supermicro, о которых речь шла выше. Но только эти процессорные платы подчиняются отраслевым стандартам PICMG. Стандарты развиваются медленно и такие платы зачастую не поддерживают самые современные процессоры. Максимум такие процессорные платы сейчас выпускают на два Xeon E5-2448L — Trenton BXT7059 SBC. Стоить такая система будет без GPU не меньше $5000. Готовые платформы TYANЗа ту же примерно сумму можно приобрести готовую платформу для сборки суперкомпьютеров TYAN FT72B7015. В такой можно установить до восьми GPU и два Xeon LGA1366.«Обычные» серверные материнские платыДля LGA2011Supermicro X9QR7-TF — на эту материнскую плату можно установить 4 Платы расширения и 4 процессора.Supermicro X9DRG-QF — эта плата специально разработана для сборки высокопроизводительных систем. Для OpteronSupermicro H8QGL-6F — эта плата позволяет установить четыре процессора и три платы расширенияУсиление платформы платами расширенияЭтот рынок почти полностью захвачен NVidia, которые выпускают помимо геймерских видеокарт еще и вычислительные карты. Меньшую долю рынка имеет AMD, и относительно недавно на этот рынок пришла корпорация Intel.Особенностью таких сопроцессоров является наличие на борту большого объема оперативной памяти, быстрые расчеты с двойной точностью и энергоэффективность.
Топовое решение от Nvidia называется Tesla K20X на архитектуре Kepler. Именно такие карты стоят в самом мощном в мире суперкомпьютере Titan. Однако недавно Nvidia выпустила видеокарту Geforce Titan. Старые модели были с урезанной производительностью FP64 до 1/24 от FP32 (GTX680). Но в Титане производитель обещает довольно высокую производительность в расчетах с двойной точностью. Решения от AMD тоже неплохи, но они построены на другой архитектуре и это может создать трудности для запуска вычислений, оптимизированных под CUDA (технология Nvidia). Решение от Intel — Xeon Phi 5110P интересно тем, что все ядра в сопроцессоре выполнены на архитектуре x86 и не требуется особой оптимизации кода для запуска расчетов. Но мой фаворит среди сопроцессоров – относительно недорогая AMD HD 7970 GHz Edition. Теоретически эта видеокарта покажет максимальную производительность в расчете на стоимость. Можно соединить в кластерДля повышения производительности системы несколько компьютеров можно объединить в кластер, который будет распределять вычислительную нагрузку между входящими в состав кластера компьютерами.Использовать в качестве сетевого интерфейса для связи компьютеров обычный гигабитный Ethernet слишком медленно. Для этих целей чаще всего используют Infiniband. Хост адаптер Infiniband относительно сервера стоит недорого. Например, на международном аукционе Ebay такие адаптеры продают по цене от $40. Например, адаптер X4 DDR (20Gb/s) обойдется с доставкой до России примерно в $100. При этом коммутационное оборудование для Infiniband стоит довольно дорого. Да и как уже было сказано выше, классическая звезда в качестве топологии вычислительной сети – не лучший выбор. Однако хосты InfiniBand можно подключать друг к другу напрямую, без свича. Тогда довольно интересным становится, например, такой вариант: кластер из двух компьютеров, соединенных по infiniband. Такой суперкомпьютер вполне можно собрать дома. Сколько нужно видеокартВ самом мощном суперкомпьютере современности Cray Titan отношение процессоров к «видеокартам» 1:1, то есть в нем 18688 16-ядерных процессоров и 18688 Tesla K20X.В Тяньхэ-1А – китайском суперкомпьютере на ксеонах отношение следующее. Два шестиядерных процессора к одной «видюшке» Nvidia M2050 (послабее, чем K20X). Такое отношение мы и примем для наших сборок за оптимальное (ибо дешевле). То есть 12-16 ядер процессоров на один GPU. На таблице ниже жирным обозначены практически возможные варианты, подчеркиванием – наиболее удачные с моей точки зрения.
Если система с уже установленным отношением процессоров/видеокарт сможет принять «на борт» еще дополнительно вычислительных устройств, то мы их добавим, чтобы увеличить мощность сборки. Итак, сколько стоитПредставленные ниже варианты – шасси суперкомпьютера без оперативной памяти, жестких дисков и ПО. Во всех моделях используется видеоадаптер AMD HD 7970 GHz Edition. Его можно заменить на другой, по требованию задачи (например, на xeon phi). Там, где система позволяет, одна из AMD HD 7970 GHz Edition заменена на трехслотовую AMD HD 7990 Devil 13.Вариант 1 на материнской плате Supermicro H8QGL-6F
Теоретически, производительность составит около 12 Tflops. Вариант 2 на материнской плате TYAN S8232, кластерныйЭта плата не поддерживает Opteron 63xx, поэтому используется 62xx. В этом варианте два компьютера объединены в кластер по Infiniband x4 DDR двумя кабелями. Теоретически скорость соединения в этом случае упрется в скорость PCIe x8 то есть 32Гб/с. Блоков питания используется два. Как их согласовать между собой, можно найти в интернете.
Для кластера таких конфигураций нужно две и стоимость их составит $11360. Его энергопотребление при полной нагрузке будет около 3000Вт. Теоретически, производительность составит до 31Tflops. Вариант 3 на платформе Tyan FT72B7015Отличается этот вариант тем, что при восьми GPU только два CPU. Соответственно, производительность его в реальных задачах будет зависеть от способности программы сильно распараллеливаться.
Теоретически, производительность составит до 32 Tflops. Вариант 4 для LGA2011, кластерный
Для кластера таких конфигураций нужно две и стоимость их составит $15940. Общее энергопотребление при полной нагрузке будет около 4000 Вт. Теоретически, производительность составит до 39Tflops. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Категория: Компьютеры и Интернет | Добавил: Lion (22.02.2013) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Просмотров: 690 | |
Всего комментариев: 0 | |