EU DataGrid





В марте 2004 года завершился трехлетний проект European DataGrid (EDG), в рамках которого была построена тестовая инфраструктура вычислений и обмена данными для европейского научного сообщества. На основе разработок EDG начат новый проект Enabling Grids for E-sciencE (EGEE), задача которого — создание сервисной панъевропейской грид-инфраструктуры, действующей в производственном режиме. Тестовая платформа DataGrid объединяет более тысячи компьютеров и свыше 15 Тбайт данных, размещенных в 25 организациях Европы, России и Тайваня. Ресурсы этой инфраструктуры доступны сообществу пользователей, насчитывающему около 500 ученых.

Одним из достижений EDG стало создание комплекса программного обеспечения грид (платформа EU DataGrid), которое способно управлять огромными объемами распределенных данных и вычислительных ресурсов, обслуживая тысячи одновременно работающих пользователей из многих исследовательских институтов.

Архитектура DataGrid

Грид EDG предоставляет конечному пользователю прозрачный доступ к пространственно распределенным вычислительным ресурсам и хранилищам данных, организованным в виде независимых сайтов. Структура сайтов унифицирована и состоит из следующих элементов-компьютеров:
  • Пользовательский интерфейс (UI). На этом компьютере установлено программное обеспечение, которое позволяет конечному пользователю взаимодействовать с ресурсами EDG.Через UI пользователь запускает свои задания и получает результаты их выполнения.
  • Вычислительная установка (CE). Основным составной частью вычислительной установки является gatekeeper (GK). Gatekeeper (GK) является шлюзом вычислительной установки, который принимает задания, распределяет их на выполнение и возвращает результаты. GK предоставляет унифицированный грид-интерфейс доступа к вычислительным ресурсам – рабочим узлам.
  • Рабочий узел (WN). Множество рабочих узлов располагается в локальной сети за шлюзом, все они управляются системой пакетной обработки и доступны в грид только через GK. Сами узлы скрыты от пользователя, однако, это именно те машины, на которых непосредственно осуществляются вычисления, поэтому на этих узлах установлено пользовательское программное обеспечение. На рабочих узлах не работают никакие службы EDG, но имеется интерфейс для обращения к ним из выполняющихся приложений.
  • Массив данных (SE). Компьютеры SE предоставляют единообразный интерфейс доступа к массивам данных. SE может управлять большими дисковыми массивами, системами массовой памяти и т.д., причем, интерфейс SE скрывает различия между этими системами.
  • Элемент мониторинга (MON). На узле запускаются сервлеты R-GMA. Ресурсы внутри сайтов, а также количество сайтов с течением времени меняется при добавлении к инфраструктуре новых ресурсов или их удалении.

В дополнение к перечисленным элементам, образующих сайт, в грид EDG устанавливаются элементы, обслуживающие группы сайтов и пользователей (виртуальную организацию).
  • Брокер ресурсов (RB). Эти компьютеры принимают задания от пользователей (через пользовательский интерфейс), сопоставляют требования задания с доступными ресурсами и распределяют задания.
  • Сервер репликации (RLS). На этом компьютере запускается локальный каталог репликации (LRC), который является одной из частей RLS, а также каталог репликации метаданных (RMC). В базе данных RLS хранятся файлы виртуальной организации и соответствующие метаданные. Эти службы используются пользователями и службами Грид для поиска подходящих копий файлов данных.
  • Информационный каталог (IC). Информационный каталог запускает схему R-GMA и сервлеты реестра. В реестре можно найти URL всех поставщиков и потребителей информации в грид.

Службы DataGrid

Программная архитектура DataGrid соответствует модели служб. В инфраструктуре грид, службы устанавливаются на компьютерные элементы соответствующих типов.
  1. Информационная служба
    Предоставляет информацию о ресурсах и службах грид - их адресах, а также их характеристиках и состоянии.

    В DataGrid могут использоваться две информационные службы: MDS Globus и EDG R-GMA. Они используют единую схему данных и одинаковый набор поставщиков информации, однако архитектурно являются разными.

    R-GMA - реализация архитектуры GMA, предложенной GGF. Особенность R-GMA в том, что она основана на реляционной модели данных и использует язык SQL в качестве языка запросов.

    Служба MDS использует протокол LDAP, который является одновременно средством представления данных и механизмом доступа к ним.
  2. Служба управления загрузкой
    Предоставляет пользователю высокоуровневый доступ к вычислительным ресурсам грид: позволяет запускать задания на ресурсах, проверять их статус, управлять их состоянием и получать результат. Клиентская часть службы представлена машиной User Interface (UI).

    Основа данной службы - Resource Broker (RB), который предназначен для взаимодействия с UI, подбора подходящих ресурсов для заданий пользователя и слежения за заданиями на удаленных ресурсах.
  3. Служба данных
    Предназначена для управления файлами данных и ассоциированными с ними метаданными в виртуальных организациях.
  4. Служба безопасности
    Модель безопасности EDG использует Globus Security Infrastructure (GSI), которая представляет собой реализацию системы Public Key Infrastructure (PKI). Согласно ей пользователи и службы аутентифицируются, используя сертификаты, подписанные службой Certificate Authorities (CA).
  5. Служба мониторинга
    В программном обеспечении DataGrid есть несколько пакетов для осуществления мониторинга в грид:
    Служба Fabric Monitoring (LEMON). Предназначена для слежения за состоянием локальных ресурсов.

    Служба Network Monitoring. Предназначена для сбора сетевой статистики между сайтами грид. На основе собираемой информации может выбираться оптимальный ресурс для запуска задания.

    Служба Application Monitoring. Построена на основе пакета GRM/PROVE для сбора метрик производительности параллельных программ, выполняющихся в грид, и визуализации этой информации.