Статья: Грид – масштабируемый распределенный компьютинг
Марк Линеш, HP
1. Введение
В современной глобальной экономике перед организациями встает проблема отказа от процессов, технологий и представлений, которые мешают обмену информацией, инновациям и коммерции. Человеку необходимо научиться работать по новому – часто в сотрудничестве с другими организациями, сообществами и/или научными направлениями. В этой статье объясняется, почему грид является тем инфраструктурным решением ИТ, которое используется ведущими организациями во всем мире для обеспечения этой, базирующейся на знаниях, глобальной экономики. Объясняется роль грид-технологий в более широком контексте распределенного компьютинга и определяются три главные категории нынешнего использования грида. Выясняется эволюция грид-технологий от специфически прикладных решений до динамических, разделяемых и ориентированных на службы инфраструктур. И, наконец, описывается та роль, которую играет Open Grid Forum в быстрейшей адаптации грида при непосредственном сотрудничестве с грид-сообществом и промышленностью в широком смысле.
2. Гриды: масштабируемый распределенный компьютинг
В самом широком смысле понятие "грид" (обратитесь к глоссарию для более точного определения) можно резюмировать следующим образом: "Масштабируемый распределенный компьютинг на множестве гетерогенных платформ в различных местах и организациях". Термин "масштабируемый" относится к необходимости использования распределенных ресурсов и управления ими как безопасной, мощной инфраструктурой - и особенно в тех случаях, когда инфраструктура развивается, деградирует и изменяется в соответствии с потребностями пользователя и/или организации. Термин "распределенный компьютинг" предполагает, что связанные по сети ресурсы (например, сети, машины, данные и инструменты), подключенные для выполнения конкретной работы, могут быть различных типов (гетерогенны) и расположены в различных физических местах. Термин "на многих гетерогенных платформах, в различных местах и организациях" связан с фактом принадлежности распределенных ресурсов различным собственникам, которые также могут управлять этими ресурсами. Понятие распределенного компьютинга, как оно трактуется в этом определении, включает большое разнообразие очень сложных технологий, многие из которых и сейчас находятся в центре интересов исследователей. Оно содержит широкий спектр физической реализации – от гомогенных, аналогичных гридам кластеров HPC компактной установки до грандиозных систем, работающих в мощных сетях, охватывающих многие административные области. Такие характеристики как безопасность, приватность, экономичность и политические аспекты гридов приобретают существенно большую значимость при использовании интернета.
Грид – это, по существу, масштабируемый ИТ – масштабируемое исполнение, масштабируемое управление и масштабируемое изменение для поддержки научного сотрудничества географически разбросанных исследователей и динамических бизнес-процессов, обеспечивающих более интенсивную деловую активность.
Как видно из диаграммы, управление грид-системой осуществляется промежуточным программным обеспечением, которое предоставляет согласованное, базирующееся на стандартах множество грид-служб. С помощью этих служб приложения безопасно взаимодействуют с инструментами, сетями, вычислительными средствами, информацией и ресурсами хранения, независимо от их типа и местонахождения.
• Обеспечивает надежную авторизацию, ролевую функцию и привилегии доступа;
Промежуточное программное обеспечение
Грид-службы
• Выполняет задачи /службы и управляет ими;
• Распределенные данные, доступ, пересылка и управление.
Ресурсы
Сеть Процессоры Память Инструменты
Грид возник в середине 1990-х годов, когда используемые инженерами и учеными приложения исполнялись на кластерах HPC (High Performance Computing, высокопроизводительный компьютинг) в противовес использованию дорогостоящих суперкомпьютеров. Кластеры сгруппировали недорогие и часто недоиспользованные ресурсы, превратив их в масштабируемую, гридоподобную инфраструктуру прежде всего для приложений с очень большой рабочей нагрузкой. Эти ранние предшественники гридов – реализованные, как правило, на одном сайте организации и работающие на гомогенном оборудовании, продемонстрировали разделение ресурсов и масштабирование, которые гриды предоставляют приложениям с интенсивной обработкой сложной информации.
Сегодня гриды можно найти в самых различных организациях по всему миру в таких разнообразных областях, как совместные научные исследования, создание новых лекарств, анализ финансового риска, предсказание погоды, дизайн, моделирование, бизнес-аналитика и среды обработки транзакций. Хотя у гридов много общих характеристик, таких, как виртуализация инфраструктуры, создание пулов ресурсов и их разделение, динамическая инсталляция ресурсов, имеется несколько содержательных категорий гридов, включая: кластерные гриды, корпоративные гриды и гриды центров данных.
Кластерные Гриды в настоящее время являются наиболее широко распространенной моделью использования гридов - моделью, нацеленную в первую очередь на компьютинг высокой производительности и планирования распараллеленной рабочей нагрузки на масштабируемой инфраструктуре. Значение характеристики динамического развертывания у них обычно невелико, конструктивно они более однородны.
Ведущие компании, такие как Johnson & Johnson, в настоящее время в своей производственной среде используют мульти-сайтовые кластерные гриды. И неудивительно, что эти гриды являются эффективным ресурсом с экономической точки зрения для выполнения сложных приложений в смысле объема данных и вычислительной обработки. J&J является примером набирающей силу тенденции предоставления пользователям гридов (как финансовым трейдерам, так и исследовательским группам, разрабатывающим новые лекарства) гибкой и легко осваиваемой инфраструктуры. Эти и ряд других возможностей гридов повлияли на то, что консалтинговая компания Gartner Inc. выделила грид-компьютинг как одну из 10 самых передовых технологий в перспективах 2007 года.
Корпоративные Гриды охватывают большое количество организаций и персон, доменов безопасности, протоколов, механизмов обнаружения и етерогенного машинного оборудования, совместно обеспечивающих разделение всех ресурсов наиболее эффективным образом среди своих объединенных сообществ пользователей. Это позволяет участникам распределенной команды (виртуальной организации) воспользоваться опытом друг друга в реальном (или почти реальном) времени и достичь результатов, которые иначе достичь было бы гораздо труднее, работая поодиночке или в режиме последовательного общения. В этом и состояло первоначальное видение гридов в долговременной перспективе.
Johnson & Johnson за ускорение разработки лекарств
Обратив внимание в 2003 году на первые успехи гнебольшого пилотного грид-проекта, J&J построила производственный грид с пулом ресурсов, размещенных по всему миру. На этом гриде выполняются десятки приложений, он позволил сократить время R&D (Research & 1Development), необходимое для перехода лекарств из сферы исследовательских лабораторий в сферу клинических испытаний и коммерческих продаж. Базирующиеся на гриде приложения дают ученым средство моделировать сложные химические компоненты значительно быстрее и дешевле, чем приложения другого типа. Кроме этого, грид обеспечивает масштаб и надежность, необходимые для исследовательских групп, работающих на сайтах J&J, при доступе к разделяемым, мульти-терабайтовым наборам данных, что существенно убыстряет выпуск лекарств.
Можно привести много примеров корпоративных гридов, широко используемых во всем мире, часто изначально поддерживаемых правительственными фондами с целью способствовать быстрейшему научному открытию или экономическому развитию в стране или регионе. В эти "региональные грид-инфраструктуры" входят: ChinaGrid, TeraGrid и Open Science Grid в Соединенных Штатах, германский проект D-Grid, японский национальный исследовательский проект NAREGI, английская программа e-Science Programm и EGEE и EGEE-II (Enabling Grids for E-sienceE) в Европе, упомянем лишь несколько.
Так например, EGEE обеспечивает гридом научную коллаборацию исследователей всего мира по таким разнообразным темам как моделирование тестирования лекарств против вируса гриппа H5N1 (avian flu virus) и обеспечение физиков всего мира возможностью проводить свои эксперименты в области физики высоких энергий, используя петабайты данных, генерируемые на Большом адронном коллайдере (LHC), вступающем в эксплуатацию в 2007 году. Всеобъемлющий грид EGEE (смотри врезку) предоставляет ресурсы для любых приложений самой сложной структуры и процедурности, но он также обеспечивает гибкость, необходимую для адекватного соответствия быстрым изменениям в формах организации, функционирования и распада групп в условиях различных организационных ограничений. EGEE показало, что Грид – это гибкий и адаптивный ресурс, соответствующий новым моделям сотрудничества в области научных исследований.
EGEE: поддержка корпоративных исследований
Грид является сердцем и душой способности EGEE поддерживать свыше 100 "Виртуальных организаций" научного направления. Грид этого проекта содержит свыше 30000 процессоров на сетке более чем 200 взаимосвязанных сайтов из 39 стран. Передача данных со скоростью 2 Гб/сек обеспечивает выполнение в среднем 30000 работ в день, некоторые из этих заданий используют/генерируют мульти-петабайтовые наборы данных. Имея в своем распоряжении такую мощную архитектуру, EGEE может удовлетворять возрастающие потребности своих разбросанных по всему миру сообществ.
Гриды центров данных охватывают один или более центров деловых данных, во многих отношениях они технически оснащены также, как и корпоративные гриды. В сферу своего нормального функционирования они включают весь динамический жизненный цикл развертывания, настройки, управления и исключения служб. На первый взгляд может показаться, что в них отсутствует аспект нескольких административных доменов, но, как правило, это только так кажется. Хотя финансовая поддержка может поступать из одного источника, а всё администрирование выполняться одной организацией, взаимоотношения между различными группами пользователей обычно очень похожи на взаимоотношения в корпоративных гридах.
Примеры гридов центра данных можно найти в таких компаниях как Amazon, eBay и Google, где поддерживаются центры данных в контексте интернета, а также в организациях, поддерживающих ИТ как "службу услуг" (как публичную так и приватную). Масштабируемость в операционном, управленческом и модификационном смыслах является жизненной силой этих организаций, и некоторые из них вложили много труда и интеллектуальных ресурсов в разработку архитектуры и технологий своих центров данных, предвосхищая появившиеся позднее стандарты и применяя "новоиспеченные" средства, доступные на рынке.
eBay: управление крупной развивающейся коммерцией
"У нас похожая на грид архитектура компьютинга, в которой наличие сетевого масштабирования обеспечивает доступность, адаптивность и экономическую эффективность, соответствующие нашей бизнес-модели. Скоро мы сможем выполнять приложения на нашей грид-платформе, особое внимание мы обращаем на базирующиеся на стандартах интероперабельность и компонентность."
Впрочем, даже эти весьма передовые фирмы признают важность наличия солидного портфеля проверенных, работающих в гриде продуктов, которые теперь можно приобрести у провайдеров открытого кода и коммерческих поставщиков. По мере того, как эти возможности становятся все более доступными, производственные организации все более обращаются к гриду и относящимся к нему технологиям для модификации архитектуры своих производственных центров данных, отказываясь от существующих традиционных приложений и информационных структур. Переход на более гибкую и динамическую взаимосвязь меняющихся запросов бизнеса и поддерживающей его ИТ-инфраструктуры – это путешествие, в которое отправились многие ИТ-организации.
3. Гриды и другие принципы распределенного компьютинга
В сердце упомянутого выше архитектурного ИТ-путешествия находятся гриды – от стандартных, статически привязанных приложений и управляемых вручную ресурсов до новой вселенной разделяемых, динамически поставляемых ресурсов, которые надежно предоставляют пользователям прикладные службы. Грид – это стержневой принцип современных архитектур распределенного компьютинга, он согласован с другими важными технологиями распределенного компьютинга такими, как виртуализация, ориентация на службы и автоматизация центров данных. В определенном смысле грид обязан своим существованием виртуализации, автоматизации и ориентированным на службы технологиям; но он также интегрирует эти технологии в одно унифицирующее решение – и, что особенно важно, невзирая на какие-либо функциональные и организационные границы.
Базовой характеристикой гридов является их способность виртуализировать приложения, информацию и другие ИТ-ресурсы такие, как сети, сервера, память и настольные компьютеры. Виртуализация – это логическое представление ресурса, которое отделено, абстрагировано от его физической реализации. Виртуализация освобождает приложения и информацию от статической привязки к предназначенной физической ИТ-инфраструктуре, такой, как сервера или память. Ресурсы могут быть объединены в пулы, разделены и агрегированы независимо от того, где они находятся, в одном здании или на разных континентах. О виртуализации обычно рассуждают в терминах ресурсов ИТ-инфраструктуры, таких, как компьютеры, память или сети. Грид поднимает понятие виртуализации на новый уровень и виртуализирует информационные ресурсы и ресурсы прикладных программ, введенные в работающую ИТ-инфраструктуру. Важно отметить, что многие современные гриды построены главным образом из невиртуализированных ИТ-ресурсов (например, из компьютеров, памяти и сетей, которые НЕ виртуализированы), и все же виртуализация приложения и информации позволяет гриду создать среду, где ресурсы могут быть объединены в пулы, разделены и легко переназначены. Гриды также вносят свой вклад в одну из жгучих тенденций в вопросе виртуализации – серверную виртуализацию, когда виртуализированные и не-виртуализированные серверные ресурсы объединяются в пулы на большом разнообразии операционных систем и платформ, управляемые как один общий ресурс. Это отличается от виртуализации сервера, сводимой к разделению ресурсов в рамках одной единственной физической системы.
--> ЧИТАТЬ ПОЛНОСТЬЮ <--