Проблемы экзафлопсового компьютинга
International Science Grid This Week, 7 апреля 2010.
В 1970 и 1980 годы самые быстрые суперкомпьютеры конструировались на основе векторной архитектуры, применялись очень сложные технологии и схемы водяного охлаждения для борьбы с большим количеством выделяемого тепла.
К концу 1980-х годов возможности этих сложных и дорогих технологий были исчерпаны. По мере того, как микропроцессоры, используемые в персональных компьютерах и технических рабочих станциях, становились все более и более мощными, можно было создавать суперкомпьютеры, используя CMOS микросхемы и параллельные архитектуры за более низкую цену, чем в предыдущих поколениях векторных машин. Аналогичный переход к микропроцессорным компонентам и параллельным архитектурам имел место и для мейнфреймов, работающих для коммерческих приложений.
В последние двадцать лет в суперкомпьютинге доминировали существенно параллельные архитектуры, использующие от десятков до сотен тысяч процессоров, приобретаемых на рынках PC и Unix. Это позволило нам освоить тера- и петафлопсовые области, но было недостаточным для работы в экзафлопсовых областях. Теперь для суперкомпьютинга и ИТ индустрии в общем нужны другие глобальные технологии и переход на новые архитектуры.
Предчувствуя серьезные проблемы, связанные с переходом на экзомасштаб, департаменты по энергетике DOE и DARPA три месяца назад приступили к созданию групп по обсуждению таких систем.
DOE (Department of Energy) – правительственный департамент, ответственный в США за развитие энергетических технологий и поддержку соответствующих инноваций.
DARPA (Defense Advanced Research Projects Agency)– агентство Министерства обороны США, отвечающее за разработку новых технологий для использования в вооружённых силах.)
Первоочередными являются энергетические проблемы, влияющие на каждую часть этих систем. Нынешние самые экономные петафлопсовые системы потребляют от 2 до 3 мегаватт (MW) на каждый петафлопс. Общепринято считать, что экзафлопсовые системы должны потреблять около 20 MW иначе стоимость их эксплуатации станет неприемлемо большой. Тысячекратное увеличение производительности при переходе от П-масштаба к Е-масштабу должно быть, следовательно, получено не более, чем за 10-кратное увеличение потребляемой энергии.
Приведенные показатели проявились при переходе от T-масштаба в конце 1990-х годов к П-масштабу в настоящее время. Но никто не верит, что это можно сделать снова на основе современных технологий, и отсюда уверенность в необходимости такого же глубокого изменения технологии и архитектуры, которое потребовалось и два десятилетия назад.
И здесь главными проблемами являются проблемы памяти. Имеющиеся в настоящее время средства оперативной памяти (DRAM) и дисковой памяти (HDD)), являющиеся основными в компьютинге в последнее десятилетие, потребляют слишком много энергии. Необходимы новые технологии.
Другим следствием энергетической проблемы являются проблемы параллелизма и принципа локальности. В течение последних двадцати лет мы смогли добиться увеличения производительности, используя комбинацию более быстрых процессоров и более высокого уровня параллелизма. Но теперь мы не можем полагаться на повышение производительности отдельного вычислительного элемента за счет увеличения количества циклов в связи с проблемами потребляемой энергии и охлаждения. Теперь мы можем полагаться исключительно только на возможности параллелизма.
Передовые терафлопсовые системы десятилетней давности имели примерно 10 000 вычислительных элементов. Современные петафлопсовые системы содержат до 100 000 элементов. Но так как единственным путем увеличения производительности на пути к экзафлопсовым системам является подавляющий параллелизм, экзафлопсовый суперкомпьютер должен был бы содержать сотни миллионов вычислительных элементов. Такой исключительный параллелизм потребует существенных инноваций в архитектуре, программном обеспечении и приложениях для экзафлопсовых систем. В спонсируемом DARPA исследовании Exascale Software Study (Вопросы экзафлопсового программного обеспечения) содержится обзор большинства требуемых прорывов в программном обеспечении.
И, наконец, перед нами стоит проблема гибкости (Resiliency), то есть способность системы с таким огромным количеством компонент продолжать функционировать при наличии ошибок. Экзафлопсовые системы по самой своей природе должны быть в чистом виде автономными, все время имеющими доступ к информации о своем статусе, системами, которые оптимизируют и адаптируют себя к постоянно изменяющимся условиям, учитывающим и ошибки своих собственных компонент. Проблемы надежности для экзафлопсовых систем в упомянутом документе DARPA обсуждаются в разделе System Resiliency at Extreme Scales.
Такая точка зрения на переход к массовой технологии и новой архитектуре существенно повлияет и на бизнес. Прежде всего, экосистемы двух последних десятилетий, когда PC предоставили компоненты для параллельных суперкомпьютеров, уступают место новой бизнесовой экосистеме. Потребительская электроника, мобильные устройства и встроенные сенсоры являются теперь новыми партнерами сообщества пользователей суперкомпьютингов высшего уровня, потому что они разделяют одни и те же требования на множественные, мощные и недорогие компоненты, которые потребляют не слишком много энергии.
Этот переход к новой экосистеме уже был начат около пяти лет назад. IBM-семейство архитектуры Blue Gene требует не слишком много энергии, использует встроенную память в качестве своих вычислительных элементов; гибридная схема Roadrunner включает ячеечные процессоры, первоначально разработанные для станции PlayStation_3 фирмы Sony.
В Соединенных Штатах самые мощные суперкомпьютеры обычно разрабатывались в лаборатории DOE для ее собственных нужд, либо как часть программы ASCR, поддерживающей исследования по энергетике, либо в программе Высшее Моделирование и Компьютинг,
Чтобы начать разбираться в требованиях к экзафлопсовым машинам в программе NB Advanced Scientific Computing Research (ASCR) был спонсирован ряд научных встреч, на которых происходило свободное обсуждение самых трудных и первостепенных проблем энергетики, среды и соответствующих научных исследований. За этими встречами следовала серия технических семинаров, каждый из которых был посвящен конкретным научным областям.
Организованные DOE встречи и семинары явились для экзафлопсового компьютинга возможностью зафиксировать необходимость революционных решений в области энергетических исследований, стабильности среды и национальной безопасности. Они также идентифицировали влияние экзафлопсового компьютинга на такие ключевые научные области как биология, астрофизика, климатология и ядерная физика.
Одним из самых впечатляющих выводов этой работы является заключение, что на пути экзафлопсового компьютинга мы соприкасаемся с центром науки предсказаний, областью с потенциально важными результатами для всего объёма новых, глубоких и сложных проблем. Я попытаюсь выразиться точнее.
Элитные суперкомпьютеры как правило разрабатываются для интеллектуального или мощностного компьютинга. Интеллектуальные суперкомпьютеры отдают все (или почти все) свои ресурсы для решения очень больших задач за возможно более короткое время. Мощностные суперкомпьютеры, с другой стороны, поддерживают большое количество пользователей, решающих одновременно различные виды задач.
Хотя оба типа суперкомпьютинга очень важны, инициативы, направленные на продвижение экзафлопсовых проектов, фокусируются в основном на развитии мощностных машин, на решении проблем Большого Вызова, которые не могут быть решены никаким другим путем.
Мощностной компьютинг первоначально прилагался к той области, на которую ссылались как на героический компьютинг, когда почти всегда вся машина отдавалась для решения какой-то одной задачи. И без сомнения, имеется целый ряд задач, которые мы могли бы попытаться решать, имея машины в 1000 раз более мощные.
Но, по крайней мере, также впечатляет потенциал экзафлопсового компьютинга, решающего класс очень сложных проблем, которые мы не могли решать раньше не только из-за их большого объёма, сколько из-за присущей им неопределенности и непредсказуемости. Решать задачи с такой неопределенностью можно, одновременно запуская множество копий одного и того же приложения со многими различными комбинациями параметров; в этом случае мы могли бы исследовать пространство решений этих иначе непредсказуемых проблем. Это позволит нам находить оптимальные решения многих научных и инженерных проблем, а также позволит нам вычислять вероятности экстремальных событий.
Новый стиль предсказательного моделирования поможет нам использовать продвинутые научные методологии для решения многих видов проблем от изучения климата до разработки безопасных атомных реакторов. Кроме науки и инженерии есть много дисциплин, от экономики и медицины до бизнеса и государственного управления, которые могут извлечь пользу из потенциала предсказаний.
Ансамблевый компьютинг обладает атрибутами как интеллектуального, так и мощностного компьютинга. Вся машина предназначается для решения одной задачи, но при этом параллельно решаются многие копии задачи с различными начальными условиями. Уже появляются инновационные техники, помогающие разработчикам лучше программировать и управлять такими ориентированными на ансамблевое исполнение приложениями.
И, наконец, важно не недооценить влияние экзафлопсовых прорывов на ориентированные на мощность машины, а также и на меньшие машины, которые разделяют одни и те же технологии, архитектуры, программное обеспечение и приложения. Большинство инноваций, которые помогут нам в разработке суперкомпьютеров экзафлопсового класса сделает относительно недорогими системы петафлопсового класса, а также и менее мощные системы. Чем более широк доступ к такому семейству систем, тем более богатой будет объемлющая их экосистема, включая приложения, пользователей и технологии.
Следует добавить, что эти же самые Е- инновации найдут широкое применение в большей степени коммерчески ориентированных системах облачного компьютинга. Технологически требования остаются теми же самыми, или очень похожими, в особенности это относится к низкому потреблению энергии и низкой стоимости компонент. У них также общие требования к высоко эффективному автономному управлению системой. Базирующие на концепции облака системы можно фактически рассматривать как вид суперкомпьютеров экзафлопсового класса, предназначенных для поддержки примитивно параллелной загрузки, такой, как сплошной информационный анализ или огромное количество сенсоров и мобильных устройств.
В своем докладе Стратегия Американской Инновации администрация призидента Обама выделила экзафлопсовый компьютинг в качестве Большого Вызова 21-ого века в науке, технологии и инновациях, который "позволит нации поставить и решить амбициозные задачи, могущие повысить качество нашей жизни и создать фундамент для индустрии и рабочих мест в будущем." Была открыто заявлена необходимость в "экзафлопсовом суперкомпьютере, способном выполнять миллионы триллионов операций в секунду - существенно повышая нашу способность понимания окружающего нас мира на пути моделирования и уменьшая время, необходимое для разработки таких сложных продуктов как новые терапевтические материалы и высокоэффективные автомобили и самолеты."
Эта статья впервые появилась в блоге Wladawsky-Berger и перепечатана здесь с его разрешения. Вы можете присоединиться к обсуждению выраженных в этой статье тезисов >на блоге Irving Wladawsky-Berger









