Facebookのクーリングシステム

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。
そこで、データセンターの話トップ10をご紹介しましょう。第10弾は、

Facebookのクーリングシステム

この記事は「Facebookのサーバルーム」の続きで、すでに5月9日ポスト済みです。

連邦政府、2011年に137のデータセンターを閉鎖

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。
そこで、データセンターの話トップ10をご紹介しましょう。第9弾は、

連邦政府、2011年に137のデータセンターを閉鎖

連邦政府のCIO、Vivvek Kundra氏によると、米国政府は、今年39のデータセンターを閉鎖し、2011年待つまでにさらに98のデータセンターを閉鎖する見込みだ。これにより、政府のデータセンターの統合により、無駄を省こうとするオバマ政府の努力の初年度は、合計137のデータセンターを閉鎖することになる。
Kundra氏によると、2015年までに2094ある政府のデータセンターのうち800箇所を閉鎖するロードマップであり、負荷は、さらに効率の良いデータセンターかクラウドコンピューティング・プラットフォームにシフトするとのこと。
統合は今後18ヶ月間加速され、この動きを進めるタスクフォースはデータセンター・スペースをもっと効率よく利用するための、政府全体にわたる「マーケットプレイス」を形成することになる。
統合の実施計画によれば、「このオンラインのマーケットプレイスは、増加する需要を抱える機関と過剰なキャパを持つ機関とをマッチングさせるもので、既存施設の利用率を向上させるもの。マーケットプレイスは、キャパを持つ機関が自身のデータセンター・スペースの利用促進に役立つ。機関が既存のキャパがどれくらいなのかを知れば、良く情報が与えられた形での意思決定が行える。」

統合をトレースする公的ダッシュボード

実施計画によれば、「統合の詳細を公にすることが求められている。Office of Management and Budgetは、データセンター統合プログラムの進捗を明らかにするためのダッシュボードを一般に利用できるようにする。」「ダッシュボードは透明性と説明責任を担保するものであり、プログラム全体を分かりやすく公にするもの。」
最後の方で政府は閉鎖済みまたは閉鎖予定のデータセンターのリストを公表している。データはData.govまたはワシントンポストからコンマ区切りのリストとして入手可能だ。NASAはここまで最も積極的な機関であり、14あるデータセンターのうち13箇所を統合している。防衛省は8、商務省は6、内務省は4と、複数のデータセンターを閉鎖している。
これらの努力により政府はどのような節約を実現できているのか。Kundraは、保健福祉省が運用していたメリーランド州ロックビルのデータセンターの統合プロジェクトを取り上げている。15000平方フィート(1394平方メートル)のデータセンターで218本のラックがあり、年間120万ドルの電気料金を支払っていた。
防衛省は、2011年最も忙しく統合を行うところで、年末までに43以上のデータセンターを閉鎖する予定だ。その他、内務省が14箇所以上、農務省が10箇所以上といったところだ。

Eメールとストレージは「まずクラウド」

Kundraはまた、現実的で政府のセキュリティスタンダードに合致するのであれば、IT資産を第三者プラットフォームにシフトしていく「まずクラウド」ポリシーという政府の計画を取り上げている。最初のターゲットはEメールとストレージだ。
CIOオフィスは、15の機関で約95万のメールボックスと100以上のメールシステムをクラウドに移せるとしている。ストレージについては、司法省は250箇所、18000人の法律家のためのストレージソリューションを単一のクラウドプラットフォームに統合中だ。
「何百という人事管理と財務管理システムがクラウドに統合される。」
進展にもかかわらず、政府の統合には深刻なチャレンジが残っている。調査会社MeriTalkとストレージベンダーのNetAppが行った連邦政府のITマネージャに対する調査では、ITに関する意思決定者は自身の機関内では一貫したデータセンターの定義があるが、政府全体で統一されていないことが判明した。150人以上のマネージャを調査した結果として、機関はデータセンターと認めるための定義が少なくとも3種類はあるとしている。いつかの機関では、物理的なサーバの数をトレースする指標としているが、他では、使用されているストレージ容量を使っているところや、ネットワーク帯域を使っているところすらある。
しかし結局のところ、MeriTalk/NetAppの調査から、連邦政府におけるITの意思決定者は、Office of Management and Budgetがデータセンターの統合として設定した2015年の期限を守れ、統合のみにより、IT予算を18.8億ドル以上を節約できると信じていることがわかった。

マイクロソフトのデータセンター担当GM、アップルへ

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。
そこで、データセンターの話トップ10をご紹介しましょう。第8弾は、

マイクロソフトのデータセンター担当GM、アップルへ

マイクロソフトのグローバル・クラウドコンピューティング・オペレーションを可能にしているデータセンタ構築に貢献したKevin Timmons氏が同社を退職し、アップルのリーダシップの地位の1つに就くことになった。この動きはアップルがノースキャロライナの巨大な新しい施設以上にデータセンターインフラを拡張するプランを進めることを強く示唆している。
Timmons氏の退職を確認したがマイクロソフトは何も言及しなかった。「データセンターサービス担当ジェネラルマネージャであるKevin Timmons氏は、他のキャリア機会を求めることを決め、すでにマイクロソフトで従事していない。」(マイクロソフトのグローバル・ファンデーション・サービス担当コーポレート副社長、Dayne Sampson氏)
「マイクロソフト時代になし得た貢献に感謝している。」(同氏)
しかし、業界ソースによれば、Timmons氏はトップ・データセンター・エグゼクティブであるOlivier Sancheが昨年11月に突然亡くなったアップルに行くとのこと。マイクロソフトとアップルの両方で働いていたため、多くの情報源を持つDave OharaはTimmons氏のキャリア変更だとしている。
「Kevinが担当するポジションは知られておらず、Olivier Sancheがいなくなったために空いていたポジションではない。」「Olivierのポジションは他のデータセンターオペレーション・エグゼクティブがそのポジションについている。」(同氏のブログより)

アップルは構築モードか?

Timmonsのタイトルと役割が不明であるが、データセンター業界のマスター構築者の一人を雇うということは、アップルがクラウドコンピューティングの野望を持っているとの憶測を強めることになる。昨日のレポートでアップル内部の人間が、アップルにおける今後のクラウドサービスを構築するためのチームのポジションを募集にかけている。今後のクラウドサービスとは、最もエキサイティングな新しい製品とサービスを含む試みである、としている。今週始めにアップルは、米国とヨーロッパにさらにデータセンターを持つ計画をしているというレポートが上がっている。
アップルがiTuneユーザに対する音楽、ビデオ、メディアを保管するクラウドベースの「ストレージ・ロッカー」を可能にするiDataCenterの準備をしていることは幅広く知られている。

予算通りでインターネット・スケール

Timmonsは予算通りで、効率の良いインターネット・スケールのデータセンターを構築すると評判を得ている。マイクロソフトでは、Timmonsは2009年半ばに入社後すぐにダブリンとシカゴの多数の新しいデータセンターの実装を監督してきた。しかし、その後同社のデータセンターのデザインとコスト構造をスリムにする仕事に異動した。Timmonsは、自身のゴールがマイクロソフトのデータセンター・ネットワークを素晴らしいコスト効率で驚異的にスケーラブルにすることであった。」と述べている。しかも自身のチームはターゲットを達成し、データセンターコストを50%削減することに成功していると述べている。
Timmonsが在職中になしえたイノベーションのいくつかは、ワシントン州クインシーにある最新のデータセンターに現れている。それはマイクロソフト・グローバル・ファンデーション・サービスの何年にもわたる設計の成果であり、コストと資源を劇的に削減している。施設は軽いエクステリア(Timmonsは「トラック小屋」になぞられている)に、サーバ、ストレージ、電源、冷却インフラが積み込まれた高度にカスタマイズ可能なコンテナで満たされたものだ。モジュールは、新しく容量が必要になれば追加搭載可能で、各種の技術と信頼性レベルを実現するミックスしてマッチする形に構成可能なものだ。

ヤフーでの遺産

Timmons氏は2009年6月にマイクロソフトに入社。それまではヤフーでオペレーション担当の副社長であり、同社のデータセンターとインフラの構築を監督していた。その前にはGeoCitiesでオペレーション担当のディレクターであり、Macroni Dyamanicsのシニアソフトウェアエンジニアとして従事していた。
Timmons氏がヤフーにいた際、同社の「コンピューティング・コープ」設計開発のチームを監督し、ヤフーがニューヨーク州ロックポートに旗艦的施設を構築するサイト選択工程を率いた。そこでは水力発電を使い、サーバを冷却するために新鮮な空気を使えるところであった。
アップルはデータセンターのことについて言及していない。しかし、データセンターについて、今までと違うことを考えるエグゼクティブを探していたなら、Timmons氏にそれを見出したであろう。
「これまでのデータセンターで分かっている全てのことにチャレンジする。」と、2010年3月にニューヨークで開かれたDataCenterDynamicsでのプレゼンテーションで語っている。
「壁から天井まで、作らねばならないもの全てにわたって、全てにチャレンジする。」

Facebook、カスタムサーバを公表

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。
そこで、データセンターの話トップ10をご紹介しましょう。第7弾は、

Facebook、カスタムサーバを公表

オレゴン州プラインビルにある新データセンターのコールド通路内の青く輝くサーバ群

オレゴン州プラインビルにある新データセンターのコールド通路内の青く輝くサーバ群

Facebookは、オレゴン州プラインビルにある新しいデータセンター内にあるカスタムサーバ、ラック、UPSユニットなど、新しいテクノロジ基盤の詳細を公表した。このプロジェクトは、初めて企業として構築した施設であり、エネルギー効率の高いデータセンター運用を行うための同社のビジョンを反映し、2階建て構造からサーバに至るまでを最適化したもの。
「費用と電力の両者の観点から、より効率的なサーバを設計できるということは、なしえた様々な機能を構築する上で非常に大きな部分であった。」(FacebookのCEO、Mark Zuckerberg氏)
Facebookのサーバは、IntelとAMDのチップ、カスタムデザインのマザーボード、台湾のQuanta Computerが構築するシャーシとで成り立っている。サーバは、冷却効率を高めるため、大きなヒートシンクとファンが使えるよう、1.5Uの高さとなっている。
Facebookはまた、新しいオープン・コンピュート・プロジェクトの一環として、サーバとデータセンターの設計および機械設計図を公表している。これは先進のデータセンター技術がオープン・ウェブ・ファンデーションのランセンスに基づき利用できるようになるということだ。
このイニシアチブは、データセンター設計に対するオープン・スタンダードへの動きを約束するもので、通常秘密にされていた分野だ。
テクニカル・オペレーション担当副社長Jonathan Heiligerによると、「プラインビルの施設は電力使用効率(Power Usage Effectiveness:PUE)は1.07で運用しており、業界内で最も効率的な施設だ。この効率化により、Facebookがデータセンターとサーバを運用するために必要な電力量を劇的に削減することができる。Facebookは”ネガワット”に向かっている。」
「(ネガワットととは)見ることもなく使うこともないワット数のことだ。これが大規模データセンターの運用にとって、エネルギー節約するためのもっとも有効な策であると考えている。」
以下が、Facebookがこれらの高効率を実現するための手段の概要だ。

 

冷却設計

Facebookは最近の設計でよく見られる2層構造を採用している。すなわち、サーバと冷却インフラを分離し、フロアーを最大限サーバに割り当てることができるようにしている。Facebookは冷却サプライの管理に施設の上半分を使うこととし、冷却エアは上部からサーバルームに流れ込む形になっている。つまり、冷たい空気が下に流れ、暖かい空気は上に流れるという自然の法則を活用しているのだ。これにより床上げ式にフロアの下から冷たい空気を上にあげるために空圧を使う必要がなくなる。
オレゴンの冷たく乾いた空気はプラインビルに施設を設置する意思決定をするために重要な要素であった。「蒸発冷却には理想的なロケーションだ。プラインビルの気温は過去50年間、105度を越えていないのだ。」(Facebookのデータセンター・エンジニアリング担当ディレクターJay Park)
エアは、2階の「ペントハウス」と呼ばれるエアグリルから施設内に取り込まれる。そこには鎧板があり、取り込みエア量を調整している。次にエアはミキシングルームに進む。ここで外から取り込まれた冷却エアはサーバの排気熱と混合され、温度を調節する。
冷却エアは一連のエアフィルタと温度と湿度をコントロールするためのスプレイを適用するミストチェンバーを通る。エアは、ミストを吸収するもうひとつのフィルタを通り、その後、サーバエリアに通じるエアシャフトとなる床の開口部にファン・ウォールで送り込まれる。
「このシステムの美しいところは、ダクト工事が不要なことだ。エアはデータホールに直接降りていき、データセンター全体を加圧する。

ラックとサーバ

冷却エアは次に、カスタムラックに取り込まれる。これはホット通路のコンテインメント・システムに収まっている。ラックは3つ子のエンクロージャで、3箇所のスペースがラック用に用意されている。各ラックには1.5UのFacebookサーバを30台収納可能だ。各エンクロージャはネットワークポートの密集をサポートするためのラックトップ型スイッチが2つ付いている。
サーバはカスタマイズし無駄を省かれている。1.5Uのシャーシ(2.65インチ)はこのベアボーン的アプローチを反映した結果だ。「機能がないものはすべて省いた。ベゼルやペイントもない。多少高いシャーシを使っているのは背の高いヒートシンクを使っているため。40mmのファンではなく、より大きい60mmのファンを使うことができる。60mmのファンはより効率的だ。」(ハードウェアエンジニア、Amir Michael氏)
ケーブルとパワーサプライはサーバの前部に位置しており、Facebookのスタッフが、100度以上(摂氏37.8度)のホット通路側からではなく、コールド通路側で作業することができる。「これはハードウェアエンジニアとデータセンターのテクニカルスタッフとの協業による結果だ。」(同氏)
「ビール、チキンウィング、サーバでサーバインテグレーション・パーティを行った。両方の部門のスタッフは交代で如何に速くサーバをばらし、再構築できるかを目にした。多くのフィードバックを得、非常に速く斡旋ブルできるサーバを実現できた。

UPSと配電

Facebookが特に注目したものの1つは、配電であり、従来の集中UPSをベースにんしたデータセンターのデザインでは、複数のAC-DC変換で電力ロスが見られる。「電力設計を効率化すること注力した。」(同氏)
Facebookのサーバは、従来の208Vとではなく、277VのACパワーを使えるようパワーサプライをカスタマイズしている。これにより、400/277Vで建物内に引き込み、直接サーバに供給することができ、ほとんどのデータセンターで見られる、UPSや配電盤を経由することによるステップダウンを回避できる。カスタムのパワーサプライはFacebookが設計し、台湾とカルフォルニアをベースとするDelta Electronicsが製造したものだ。
ではUPSシステムは?Facebookはサーバにオンボード・バッテリを乗せることを検討したが、ラック列単位のUPSユニットにした。各UPSシステムは20個のバッテリを搭載し、
5連の48VのDCバッテリだ。Facebookのパワーサプライは2系統あり、1つはACユーティリティパワーともう一方はDCベースのUPSシステムだ。サージ抑圧と電源出力調整を管理するシステムも備えている。

マイクロソフト、専用サーバ、ラックを公表

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。
そこで、データセンターの話トップ10をご紹介しましょう。第6弾は、

マイクロソフト、専用サーバ、ラックを公表

クラウドプラットフォームを支えるマイクロソフトサーバのデザインコンセプト

クラウドプラットフォームを支えるマイクロソフトサーバのデザインコンセプト

グローバル・クラウドコンピューティング・プラットフォーム全体で電力使用を下げる方法をさぐる中、マイクロソフトはエネルギー効率が高いデータセンターハードウェアのデザインを洗練してきた。同社はカスタマイズしたサーバ、高効率の配電システム、ラック内UPSユニットに焦点をあてたデザインの詳細を公表している。
「マイクロソフトは、サーバ数とデータセンターの床面積の増大を目にし、効率を向上させることが必要であることは明らかであった。」(マイクロソフトのDistinguished Engineerであり、同社のサーバハードウェア・アーキテクチャを見ているDileep Bhandarkar氏)
Bhandarkar氏はマイクロソフトのサーバチームにより開発されたスペックに基づいた特別のデザインを起こすために、サーバベンダー(OEM)と協業している。同氏は最近Data Center Knowledgeとこのデザインについて話している。
過去3年間、マイクロソフトはIT-PACSとして知られるデータセンター・モジュールについて業界のカンファレンスで情報をオープンにシェアしてきている。しかし、これらのコンテナの内部のラックやサーバについてはほとんど詳細を明かさず、業界の研究者などの小規模なグループ向けのイベントでのみ発表していた。

 

半分の幅のデザイン

マイクロソフトの最新のクラウドスケール・サービスのデザインは、半分の幅のデザイン、すなわちラックの1Uに2台のサーバが収まるというものだ。(On the Cloud注記:Uというのは高さ方向の単位で、1Uは44.45mm。通常は最も薄いサーバが1台入る高さ)
各サーバのボードは、4枚のDIMMメモリスロットを持つCPUソケットが2つある。マイクロソフトのデータセンターで現在動作しているハードウェアはこのボードデザインコンセプトに基づいている。しかし、個々のベンダーによるカスタマイズやアプリ固有の修正が含まれている。Bing、Hotmail、Windows Azure向けのサーバはそれぞれのデザインゴールにより異なる実装となっている。
このデザインコンセプトにより、マイクロソフトは57台の超高ラックに最大96台のサーバを入れることができ、ラック辺りの電力密度を16KWにあげることができる。各ラックは短期のバックアップ電源として、最低2台のバッテリーパックを内蔵し、集中UPSシステムがなくとも運用できるようになっている。
マイクロソフトは、また、配電システムでもエネルギー節約をしており、配電システムは、3相480Vの電源を直接ラックに引き込み、そこからサーバ向けに12VのDCに変換している。これにより通常の集中UPSシステムのように各所でのAC-DC変換によるパワーロスを最少化している。
IT-PACでは、サーバにファンはなく、モジュール内の空気圧力によりサーバ内の空気の流れを制御している。これはデータセンターチームが各サーバから不必要なコンポーネントを取り除こうとしているものの1つだ。「過去3年間、続けている。マイクロソフトに来た時、各サーバにDVDドライブがあったのだ」(同氏)

サーバのエネルギー使用の最適化

マイクロソフトのチームはサーバを最適化し、40から60ワットの使用に抑えた(4コアか6コアかに依存する)。このデザインでは、温度(華氏90度)と湿度の限界を超える運用を可能とする高効率なコンポーネントが中心だ。
マイクロソフトは、サーバベンダーに2種類のタイプのスペックを開発している。

  • Bing、Hotmail、Windows Azureのようにスケールアウトサービス向けの均質な実装に最適化したスペック。これらの各jサービスのスペックは、各々のデザイン向けに微調整したRFPにより、事前にラックに組まれた納められるサーバの大量まとめ買い用のデザイン。
  • マイクロソフト内の小規模ビジネスグループ向けの多数の異なる構成に対応する内部カタログ用の汎用的標準に基づくスペック。同社は通常、継続性のため、単一のベンダーと12ヶ月から18ヶ月程度の期間付き合う。

Bhandarkar氏は、マイクロソフトはプロセッサがアイドルの間、電力消費を下げるために、ベンダーと協業している、と話す。「アイドル状態のサーバは、(CPUが使われている時の)50%の電力を消費しているのが常だった。我々はそれを約30%に下げたのだ。」
もうひとつのゴールは、DIMMメモリモジュールの電力消費を下げることだ。「DRAM業界は、緑の虫を得ようとしている。市場は1.5Vから1.35Vにシフトし、さらに1.2Vに向かっている。」(同氏)。

ラックにある無数のイノベーションのチャンス

「多くのプロセッサーベンダーとも付き合っており、我々のサーバの負荷状態がどうなのかを理解する手助けをしている。ラックレベルの電源とクーリングを最適化するチャンスは豊富にある」(同氏)
UPSとバッテリーバックアップ機能をデータセンターからサーバキャビネットにシフトするのは、通常のUPSアーキテクチャでの、パワーグリッドとデータセンター設備との間に起こる多数の電源変換ロスをなくすものだ。「これができるということを納得させるために十分な分析を行った。」(同氏)
「配電については、マイクロソフトは多数のオプションを検討したが、パワーサプライに絞った。「全データセンター業界は480Vで、サーバ業界は208Vと415Vとなっている。これは全くばかげている。480Vのインフラを変えるのは非常に大変であるため、サーバ業界の電源仕様の変更を働きかけてきた。」(同氏)

より幅広い業界での会話の役割

ラックレベルのUPSや洗練した配電を使うことは、GoogleやFacebookのオープン・コンピュート・プロジェクトで公に議論されているクラウドスケール・システムの精緻化と似たコンセプトだ。「今回の公表がイノベーションとデータセンターのベストプラクティスの進化に貢献する」(同氏)
「これはロケット工学ではない。スマートな人間が同じ問題に取り組めば、同じようなソリューションになる。長期的に業界全体を推し進めていくのに役立つはずだ。」
マイクロソフトはデザインを最適化したが、Bhandarkarはプロセスを説明するのに、「カスタム」という言葉を避けていた。「私は、我々を先進アダプターと呼んでいる。我々のスタッフは、カスタムではない。我々は知財を持たない。ベンダーが投資を回収するために、他の人に売ることを奨励している。業界全体に販売してもらいたいのだ」(同氏)

ラックとUPSのデザインコンセプト

ラックとUPSのデザインコンセプト

Here’s a look at Microsoft’s design concept for racks and UPS systems. Click for a larger version of the image.

Facebook、サーバとデータセンターのデザインを公開

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。
そこで、データセンターの話トップ10をご紹介しましょう。第5弾は、

Facebook、サーバとデータセンターのデザインを公開

Open Compute Project Server

業界の慣わしとはことなり、Facebookは、オレゴン州プラインビルにある新データセンターのデザインとスペックを公開した。このソーシャルネットワークはオープン・コンピュート・プロジェクトを発表した。すなわち、データセンターのエネルギー効率の高いデザインの詳細、サーバ、パワーサプライ、UPSユニットののカスタムデザインが発表された。
クラウドコンピューティング・プロバイダのRackspaceホスティングや、ゲーム大手のZyngaを含み、多くの主要なインターネット企業はオープン・コンピュート・デザインの要素を取り入れることを表明している。その間、サーバのベンダーであるDELLは、サーバにオープン・コンピュート・マザーボードのデザインをすでに組み込んでいると表明している。
多くの主たるデータセンター・プロバイダーは、データセンターのデザインや運用の詳細を秘密にしている。
The Fight Club Rule of Data Center Secrecy参照)(On the Cloud注記:この記事は英語のままです)
「我々が作るハードウェアの類を必要としているのは我々だけではない」(FacebookのCEO、Mark Zucherberg氏)
「ソーシャルアプリケーションを構築しやりたいことをやるためにはこれが一番簡単で最も費用効率が高い。」
「このアイデアは業界を前進させるものだ。」(FacebookのハードウェアエンジニアAmir Michael氏)「これは業界とベストプラクティスを共有するイニシアティブになる。我々はこの技術をビジネスの鍵として自社内に保持していくつもりはない。他社がもっと効率の高いインフラを構築する手助けをしたいのだ。」
FacebookはOpen Web Foundationライセンス下、スペックとメカニカルCADファイルを公表している。つまり、世界的、非独占的、費用なし、ロイヤリティなしの著作権ライセンスであり、再製、派生品を作るにも、完全にスペック通りに実装するにも、Facebookへの報告の義務がない」(同社)
オープン・コンピュート・プロジェクトで注目すべきデザインは、他社には簡単に実装できない。何故なら通常ではない配電とUPSに依存しているからだ。既存の運用を改良するよりも、新規構築から最大限の価値を引き出すというアプローチだ。さらにFacebookのデータセンター・デザインは、フリークーリングに依存している。サーバを冷やすために空調を使うのではなく、新鮮なエアを使うというもの。フリークーリングを使えるのは、地理的位置、涼しい気候の場所がベストなのだ。
しかしFacebookはこのイニシアティブに参加する業界のプレーヤーの意味あるリストを持っている。Advanced Micro Devices、Dell、HP、IntelはFacebookと共同開発する企業だ。さらにDellのデータセンター・ソリューションビジネスではオープン・コンピュート・プロジェクトのスペックに基づいたサーバを設計し、構築することになる。Synnexはオープン・コンピュート・プロジェクト・サーバのベンダーとなり、顧客のスペックに基づき統合し十分テストされたソリューションを提供する。
「Facebookはデータセンターとハードウェアの継続するイノベーションにとって、先進的なレファレンス・デザインに貢献した。」(DellのWorldwide Server Platforms担当副社長兼本部長Forrest Norrod氏)「我々は、このデザインから学び、さらに進化させる方法を探すため、似たような考えを持つテクノロジ・プロバイダやパートナーと協業することを待ち望んでいる。」
Rackspaceの会長Graham Weston氏は、Facebookがデザインし、オープン・コンピュート・プロジェクトで発表されたこれらのアイデアのいくつかは、何百万もの電力コストを節約できると話す。「我々は、データセンターに関し自身の知財を開発し、オープン・コンピュート・デザインが進むにつれ、それらのいくつかを公表するつもりだ。」
Zyngaも採用しそうだ。「オープン・コンピュート・プロジェクトと作業し、ペストプラクティスを交換し、電力消費の効率化、デザイン、管理性の分野で業界全体が進化することに貢献したい」(CTOのCadir Lee氏)

Webに波紋が広がったアマゾンの障害

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。
そこで、データセンターの話トップ10をご紹介しましょう。第4弾は、

Webに波紋が広がったアマゾンの障害

(On the Cloud注記:これは4月21日障害直後にポストされたものです。)
にぎわっているクラウドプラットフォームがクラッシュすると、そのインパクトは広がる。AWSの障害がそのケースだ。すなわち北バージニア・データセンターの1つでの遅延問題だ。この問題は顧客へと波紋が広がり、ウェブサービスのためにアマゾンのクラウドを使用している多くのサービスがダウンすることになった。
アマゾンの問題によりオフラインになってしまったサイトは、ソーシャルメディア・ハブのReddit、HootSuite リンクシェアリング・ツール、人気の高いQAサービスQuora、マイクロソフト向けFacebookアプリなどだ。(影響があったサイトの全リスト参照)
米国西部時間の午前1時から問題が発生し、午後2時半まで続いた。その際アマゾンは何時完全にサービスが回復するか予測できないとしている。午後の半ばごろ、アマゾンは米国東部の単一Availability Zoneに限定された問題だとし、影響があるインフラを回避するよう努力しているとのことであった。AWSステータス・ダッシュボードでは、問題があるサービスはElastic Compute Cloud (EC2)、
Amazon Relational Database Service、Amazon Elastic MapReduceであり、 US-East-1リージョンに限定されている。

ネットワークイベントが問題を引き起こした

問題の焦点はElastic Block Storage(EBS)で、これはアマゾンのEC2インスタンスとともに使用するブロックレベルのストレージボリュームだ。Redditは、3月に大規模なダウンタイムに見舞われた際、EBSの遅延問題に言及していた。
「今朝早くのネットワークイベントがUS-EAST-1のEBSボリュームの大規模な再ミラーリングを引き起こした。」と、アマゾンは米国西部時間午前9時ちょっと前にステータスアップデートでそのように言及した。この再ミラーリングによりUS-EAST-1のAvailability Zoneの1つで容量不足に陥り、新規EBSボリュームの作成と、再ミラーリングと影響を受けたEBSボリュームのリカバリのスピードに影響を与えた。さらに、EBSの内部コントロールプレインの1つが逼迫し、新規EBSボリュームとEBS起動のインスタンスの作成が困難になった。
「再ミラーリングのスピードアップをはかるために当該Availability Zoneの容量を大急ぎで増加させるとともに、コントロールプレイン問題の復元に努力している。」「この努力により進展が見え始めているが、まだ成果が上がっていない。進展があり次第アップデートする」
UPDATE:
米国東部時間10時30分、アマゾンは「影響を受けたEBSコントロールプレイン・サービスの安定化に大きな進展」、すなわちエラー率の低下、が観測されたとしてしている。「影響受けたAvailability Zoneで容量追加も行い、スタックしていたEBSボリュームも回復し始めている。これらのボリュームが何時完全に回復するかの予測は出来ないが、回復の予測をするに十分なデータが揃い次第、予測内容を提供する」
UPDATE 2:
午後1時48分、アマゾンはES-EAST-1リージョンの単一のAvailability ZOneでEBS起動インスタンスを起動することやボリュームを作成することについての問題が引き続き起こっているとした。「その他のAvailability Zoneは通常通りに運用しており、影響を受けたボリュームのスナップショットを持つ顧客は、他のゾーンでボリュームやインスタンスを起動できる。インスタンスを起動する際、特定のAvailability ZOneをターゲットにしないことを推奨する。特定のZoneをターゲットしない要求に対して、障害があるZoneでインスタンスを起動しないようにサービスを更改した。」
障害はマイクロソフトのイニシアチブにすら影響を与えた、とFacebookがポストしている。「我々の”ものすごく大きな箱”の賞金レースに参加しようとしている人に連絡、入口のサイトは現在ダウンしており、これは本日インターネット中で多くのサイトに影響を与えている幅広い問題に関連しているもの。」とマイクロソフトはFacebookフォロワーに語っている。回復しだい連絡する。マイクロソフトは自身のデータセンターインフラを持っているが、いくつかのビジネスユニットはサードパーティのサービスを使っている。ものすごく大きな箱”FacebookアプリはEC2条で動作している。

マルチリージョン・フェイルオーバー・オプション

障害は、US-EAST-1リージョンを使用する多くの顧客に影響を与えたが、全ての顧客ではなかった。アマゾンは複数のリージョンを持っており、ユーザに複数のリージョンで動作させることによりアプリケーションに冗長性を持たせることができる。マルチリージョンの設定では、1つのリージョンに問題が発生すれば、顧客は影響を受けていないリージョンに負荷をシフトすることができる。
AWSで障害や性能問題が発生すると、マルチリージョンのオプションに焦点が当たる。すなわち顧客はクラウド資産にSPOF(Single Point Of Failure)を避けるということだ。今回の障害は、アマゾンに依存する顧客の一部でリージョンの追加やEC2障害に対応するためのその他の戦略の検討を加速するかもしれない。
障害はまた、クラウドコンピューティングの信頼性に関する議論を促すかもしれない。これはまともな質問なのだろうか。今回の障害は多くの顧客に影響を与えたが、多くの人気あるサイトをホストする単一サービスの脆弱性に焦点が当たった。
これは、The Planetのような専用のホスティング・プロバイダやFisher Plazaなどのデータセンターハブでのこれまでの障害でも同じことが言える。これらの施設に依存していた企業は別のデータセンターにバックアップ装置を設置することにより障害を避けることができる。アマゾンではゾーンを追加することと本質的に同じ考え方である。
物事は起こるものである。障害があるたびに記事を書いている。しかし現実の世界では、ダウンタイムはクラウドはダウンしないのだという主張は特に問題だ。クラウドインフラも障害が発生するのだ。違いは、クラウドは冗長性を管理し、障害が発生した際に回避するための新しいオプションを提供することだ。

Green Revolutionの液浸冷却

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。

そこで、データセンターの話トップ10をご紹介しましょう。第3弾は、

Green Revolutionの液浸冷却

Green Revolutionの冷却ソリューションを4台のラックに適用したもの。サーバはミネラルオイルに似た冷却液に浸される。

Green Revolutionの冷却ソリューションを4台のラックに適用したもの。サーバはミネラルオイルに似た冷却液に浸される。

高密度冷却のスペシャリストであるGreen Revolution Coolingは製品が設置されている様子を写真とビデオで公表している。サーバはミネラルオイルに似た液体に浸されているものだ。このテキサス州オースティンに構えるスタートアップ企業によれば、クーリングエンクロージャーは、コンピュータルームの空調やr冷却装置を必要とせず、従来のラックのコストの一部分で高密度サーバの冷却が可能になる。
Green RevolutionのCarnotJet Submersion Cooling Systemは、ラックを後ろ向けにした姿に似ている。
250ガロンの電気絶縁体の液体が満たされ、サーバはエンクロージャ内のスロットに縦向けに入れられる。液体の温度は、熱交換器付きのポンプによって維持され、熱交換器自体は通常の蒸発性クーリングタワーに接続できる。同社によれば、ソリューションは多少の変更でOEMサーバとして動作するとしている(不必要なファンを除去し、ハードドライブにコーティングを施す)。
液浸冷却は、ハイパフォーマンス・コンピューティングやその他、空冷では管理することが困難な高密度実装のアプリケーションに主として使われる。液浸冷却に対する関心はアプリエーションやサービスが高密度実装を必要とするにつれ、需要が上がってきている。
Green Revolutionの第一号機は、オースティンのテキサス・アドバンスト・コンピューティング・センターに納められている。Rangerスーパーコンピュータのホームグラウンドだ。写真はオースティンのISPであるMidas Networkに設置されている4台ラック構成(100KW)のものだ。
Green Revolutionによれば、このエンクロージャはMidas Netwrokの負荷に対する全エネルギーコストの50%節約に値するとしている。同社は液浸冷却に対する初期投資の回収は1年から3年程度としている。
ミネラルオイルを冷却液として使用している。なぜならば、危険物ではなく、水と同等の比熱を持ち、電気絶縁体だからだ。Green Revolutionはサーバを液に浸す液浸冷却ソリューションを市場投入した多くの企業の1つだ。液浸冷却のその他のデザインとしては、SC09のイベントで、英国のIceotope社が発表し、Hardcore Computingが昨年Liquid Blade immersion cooling Unitを発表している。
Green Revolutionのウェブサイトのフォトギャラリーでは、その他初期の設置機を紹介している。エンクロージャが漏れたい策要のコンテインメント・システム上に乗っているのがわかる。
「ここのコンテインメントは3インチ厚のメタル・ウォールで、山形鋼で出来ており、タンクとポンプモジュールを覆っており、下部はコンクリートスラブで覆っている。」(Green RevolutionのMark Tlapak氏)
「この部分はラック1台以上を優に耐えられるようになっている。タンク間は、3インチの高さに金属製のキャットウォークがあり、コンテインメント・エリアに冷却材があっても、人間がラックの回りを歩きまわれるようになっている。各タンクは2つのレベルの冷却材検知センサーがあり、コントロールソフトウェアとの連携で、冷却材のレベルに変動があれば、即座に警告が発せされる。

Midas Networkの設置状態を別のアングルから見たもの。

Midas Networkの設置状態を別のアングルから見たもの。


(On the Cloud注記:私がかつていたクレイ・リサーチのスーパーコンピュータCray-2、Cray-3も液浸冷却でした。懐かしい。DataCenterKnowledgeのサイトにはGreen Revolutionに対するコメントして、エンクロージャで吸収した熱はどこにいくの疑問と書いているものもあったが、普通の空調と同じで、熱交換器から別回路で屋外の冷却塔に送り、冷却するものと思われます。空調を使う場合には、屋内では空気で冷やすことになるわけですが、Green Revolutionの場合、液浸ですから、液体で直接冷やすため、より効率よい冷却が期待できるハズです。)

Facebookのクーリングシステム

「Facebookのサーバルーム」に引き続き、クーリングシステムの紹介です。

Facebookのクーリングシステム

Facebookのクーリングシステム

前回はオレゴンにあるFacebookの新データセンターのサーバルームの内部を紹介した。今回は第2部、Facebookのデータセンター・エンジニアリング担当ディレクターJay Parkが施設のペントハウス・クーリングシステムの概要を紹介する。データセンターの冷却用エアのフィルタリングと引き込みだ。ビデオは12分間。

Facebookは、最近よく見かける設計である、2層構造を採用している。すなわち、サーバと冷却インフラを分離し、サーバを最大限設置できるようにしている。Facebookは、冷却サプライを管理するために、施設の上半分を使用することにし、冷却エアは上部からサーバルームに取り込まれるようにしている。冷たいエアが下に流れ、温められたエアが上に昇るという自然現象を活用しているのだ。これにより、床から冷却エアを上部に送るために圧力をかける必要がなくなるのだ。
エアは、2階の「ペントハウス」のエアグリルから施設内に入る。そこには鎧板があり、取り込みエア量を調整している。次にエアはミキシングルームに進む。ここで外から取り込まれた冷却エアはサーバの排気熱と混合され、温度を調節する。冷却エアは一連のエアフィルタと温度と湿度をコントロールするためのスプレイを適用するミストチェンバーを通る。
エアは、ミストを吸収するもうひとつのフィルタを通り、その後、サーバエリアに通じるエアシャフトとなる床の開口部にファン・ウォールで送り込まれる。
オープン・コンピュート・プロジェクトで公開しているダイアグラム図では、プラインビルのペントハウス・クーリングの設計が建物レベルでどうなっているかがわかる。サーバとサーバルームの排気熱のためのホットエア給気式換気が示されている。

オレゴン州プラインビルにある新データセンターのデザイン

オレゴン州プラインビルにある新データセンターのデザイン

Facebookのサーバルーム

アマゾンウェッブサービス(AWS)の障害後、データセンターの設計や運用に関する関心が高まっているようです。DataCenterKnowledgeというサイトでは、4月の閲覧数のトップ10は全てこのデータセンターの設計と運用に関する記事だったそうです。その中には、グーグルのデータセンターセキュリティ、Facebookのデータセンター設計、マイクロソフトのサーバとラックのカスタマイズなどが含まれています。

そこで、データセンターの話トップ10をご紹介しましょう。第2弾は、

Facebookのサーバルーム

オレゴン州プラインビルにあるFacebookの新データセンターのサーバルーム(Hot Aisle Containment System) (写真提供:Alan Brandt)

オレゴン州プラインビルにあるFacebookの新データセンターのサーバルーム(Hot Aisle Containment System) (写真提供:Alan Brandt)

Facebookは、オレゴンにある新データセンターのサーバとシステムの写真および設計を公表している。金曜日にジャーナリストと地元の役人にプリンスビルの施設の見学を許可したため、実物を見てきた。Facebookのデータセンター・エンジニアリング担当ディレクターJay Par氏がデータセンターのビデオツアーを担当し、2箇所の設置場所を見せてくれる。ビデオでは、Facebookを支える数千のサーバ群があるデータホールの中を見せてくれる。同施設のために作成したカスタムのサーバ、ラック、UPSも見ることができる。ビデオは8分間だ。
(On the Cloud注記:最後の方で画面が真っ暗で良く見えないが、サーバ群で熱せられた空気が流れる通路。サーバ群は操作が必要なものはフロント側に位置するように作られており、背面側は基本的に人が入ることがないため、明かりがないらしい)
第2部では、Facebookがプラインビルの施設のために開発したカスタムのクーリングシステムを紹介している。