何年もの間、データセンターエネルギー消費は予測可能な弧を描きました。確かにデジタル化は進んでいますが、より優れたサーバー、仮想化、クラウド統合による効率の向上により、総電力使用量は驚くほど横ばいに保たれました。世界のデータセンターの電力需要は、10 年間の大部分にわたって、総電力消費量の 1% 前後 (年間約 200 テラワット時) で推移していました。
その時代は終わりつつあります。
生成 AI、暗号通貨マイニング、エッジ コンピューティングの融合、および接続デバイスの指数関数的な増加により、古い効率曲線は破壊されました。業界の推計によると、データセンターの電力需要は 2000 年代初頭以来見られない年率で増加しています。一部の地域(アイルランド、バージニア北部、シンガポール)では、データセンターがすでに総電力消費量の15~25%を占めており、規制当局は新規建設の一時停止を余儀なくされている。
このような背景から、冷却アーキテクチャ、配電トポロジ、ラック密度計画など、かつては技術的な詳細のように思われていたインフラストラクチャの選択が、役員会での決定となっています。エネルギーコストは項目ではなくなりました。それは成長に対する制約です。
電力使用効率 (PUE) は、20 年近くにわたってデータセンター業界の標準的な効率指標となってきました。これは、施設の総電力を IT 機器の電力で割った単純な比率です。
PUE 2.0 は、サーバーやストレージに電力を供給する 1 ワットごとに、さらに 1 ワットが冷却、照明、電力変換損失、その他のオーバーヘッドに費やされることを意味します。 PUE が 1.2 ということは、オーバーヘッドが IT ワットあたり 0.2 ワットしか消費しないことを意味します。
業界では、PUE に基づいた層が広く受け入れられています。
| レベル | PUE | DCiE | それが何を意味するか |
|---|---|---|---|
| 白金 | <1.25 | >0.80 | 世界クラスの効率。通常は自由冷却または液体冷却が必要 |
| 金 | 1.25 – 1.43 | 0.70~0.80 | 非常に効率的で、穏やかな気候であれば最新のデザインで達成可能 |
| 銀 | 1.43 – 1.67 | 0.60~0.70 | 古い施設または温暖な気候に対応 |
| ブロンズ | 1.67 – 2.00 | 0.50~0.60 | 大規模な改修を行わない従来のデータセンターの典型的な例 |
| 公平 | 2.00 – 2.50 | 0.40~0.50 | 効率が悪く、運用コストが高い |
| 貧しい | >2.50 | <0.40 | 重大な非効率性。おそらく即時の対応が必要です |
問題は、多くの組織が実際には PUE を把握していないことです。彼らは推定している。彼らは推測します。または、メインの公共料金メーターでのみ測定し、残りは仮定します。
2023 年の業界調査では、データセンター運営者の 40% 近くがラック レベルで PUE を測定したことがないことが判明しました。そうした企業の間では、報告された PUE と実際の PUE の間のスプレッドは平均 0.3 ポイントでした。これは、誰にも気付かれずに施設をゴールドからシルバーに移行させるのに十分な値です。
PUE がこれほど大きく異なる理由を理解するには、電力がデータセンターのどこから出ているかを調べることから始まります。
PUE が約 1.8 の一般的な空冷施設では、内訳はおおよそ次のようになります。
冷却負荷は最大の変数です。温帯気候の施設で自由冷却に外気を使用している場合、IT 以外の電力の 15% しか冷却に費やさない可能性があります。熱帯気候にある同じ施設で、年間を通じて機械冷却が行われる場合、40 パーセントを費やす可能性があります。
コロケーション プロバイダーが施設レベルでは PUE を宣伝しますが、顧客メーターでは PUE を提供するのはこのためです。数値や意味が異なります。顧客は全額を支払います。
従来のデータセンター管理は、比較的静的な環境を前提としていました。ラックは数か月または数年かけていっぱいになりました。冷却はゆっくりと調整できます。配電は初日から大規模になりました。
クラウド時代はその前提を変えました。ラックは数日で埋まるようになりました。ワークロードはサーバー間で自動的に移行します。高密度 AI クラスターは、隣接する汎用コンピューティング ラックの 3 倍の電力を消費する可能性があります。
これらの変化により、インフラストラクチャ管理の再考が必要になりました。 3 つの傾向が際立っています。
まず、密度が不均一に上昇しています。10 年前の標準的なサーバー ラックの消費電力は 5 ~ 8 キロワットでした。現在、汎用ラックの消費電力は 10 ~ 15 キロワットです。ハイパフォーマンス コンピューティングおよび AI トレーニング ラックは、ラックあたり 30 キロワットを超えるのが日常的です。 50キロワットを超えるものもあります。
これにより、空冷では解決が難しい熱管理の課題が生じます。ラックあたり 20 キロワットの空冷は、適切な封じ込めにより効果を維持します。 30キロワットになると限界になります。 40 キロワット以上では、液体冷却はオプションから必須へと移行します。
第 2 に、キャパシティ プランニングが予測可能になりました。必要以上の容量を購入してアイドル状態にしておくという古い方法は、もはや大規模には機能しません。アイドル状態の容量には、資本コストと継続的なメンテナンスコストの両方がかかります。
最新のインフラストラクチャ管理システムは、履歴データとワークロード予測を使用して、電力、冷却、ラック スペースがいつ枯渇するかを予測します。最良のシステムは、制約が重大になる数日または数週間前に、既存の容量を再構成するか、新しいハードウェアを注文するかを推奨できます。
第三に、可視性要件には、パンパンした。従来のデータセンターは、PDU レベルで電力を追跡する場合があります。最新の施設では、ラック レベル、場合によってはサーバー レベル、さらにはワークロード レベルでの可視性、つまりどの仮想マシンまたはコンテナがどの電力消費を駆動しているかを把握する必要があります。
データセンターインフラストラクチャ管理 (DCIM) ソフトウェアは 10 年以上前から存在していますが、採用状況は依然として不均等です。完全な DCIM システムを導入している企業データセンターは半数未満です。その多くは、その機能のほんの一部しか使用していませんでした。
適切に実装された DCIM システムは、次の 4 つのことを行います。
資産運用管理。すべてのサーバー、スイッチ、PDU、冷却ユニットは構成管理データベース (CMDB) で追跡されます。場所、定格電力、ネットワーク接続、メンテナンス履歴、すべて。これは基本的なことのように聞こえますが、多くの組織は依然としてスプレッドシートで資産を追跡しており、更新の間隔は数か月に渡ります。
リアルタイム監視。PDU またはラック レベルでの消費電力、供給点と戻り点の温度と湿度、冷却システムのステータス、UPS バッテリの状態。パラメータが設定値から逸脱すると、アラームがトリガーされます。目標は、ダウンタイムが発生する前に問題を検出することです。
容量計画。システムは、どのくらいの電力と冷却能力が利用可能か、どれくらいが使用中か、どれくらいが将来の展開のために予約されているかを認識します。新しい高密度ラックの追加や古いサーバーのセットの廃止による影響をモデル化できます。
視覚化。データセンターのデジタルツイン (ラックごと、タイルごと) は現在の状態を示し、オペレーターが変更をシミュレーションできるようにします。 3 行 4 列に 10 キロワットの負荷を追加すると、冷却能力を超えますか?誰かが機器を移動する前にシステムが応答します。
データセンターのエネルギー消費量の削減は不思議なことではありません。手法がよく分かりました。課題は実装規律です。
給気温度を上げる。ほとんどのデータセンターは低温で稼働しており、冷却ユニットからの戻り温度は 18 ~ 20 ℃です。これは、オペレーターが常にそうしているためです。 ASHRAE ガイドラインでは現在 24 ~ 27 度を推奨しています。温度が上がるごとに、冷却エネルギーが約 4% 削減されます。 20 度ではなく 26 度で実行すると、冷却電力が 20 ~ 25 パーセント節約されます。
熱気と冷気の混合を排除します。ホットアイル封じ込め、コールドアイル封じ込め、または垂直排気ダクトにより、冷却空気がラックの前面を短周期で通過するのではなく、強制的に必要な場所に送られます。通常、封じ込めだけでも冷却エネルギーは 15 ~ 25% 削減されます。
可変速ドライブを使用してください。定速ファンとポンプは部分負荷時にエネルギーを浪費します。可変速ドライブは、空気の流れと水の流れを実際の需要に合わせます。改修の投資回収期間は通常 1 ~ 3 年です。
UPSの動作を最適化します。ほとんどの UPS システムは、商用電源がクリーンな場合でも、AC を DC に変換し、AC に戻すという二重変換モードで継続的に動作します。最新の UPS システムは、電力品質が許せばエコモードに切り替えることができ、94 ~ 96 パーセントではなく 99 パーセントの効率を達成します。その代償として、商用電源に障害が発生した場合にバッテリーへの移行時間が短くなります。このような転送用に設計された電源を備えた IT 負荷の場合、リスクは最小限です。
より高電圧の配電を採用します。208V ではなく 415V で電力を配電すると、配電損失が約 25% 削減されます。これには互換性のある PDU とサーバー電源が必要ですが、多くの最新のデバイスがこれをサポートしています。
上虞CPSY会社データセンター インフラストラクチャに重点を置くハイテク企業である は、モジュラー データセンター ソリューションの PUE が 1.3 であると報告しています。これにより、同社はゴールド層に位置付けられ、プラチナに向けて移行します。
従来の設計と比較して 25% のエネルギー節約が謳われているのは、複数の要因によるものです。システムレベルで 97.4% の効率を誇るモジュール式 UPS システムは、通常の場合 15 ~ 20% 発生する配電損失を削減します。可変速コンプレッサーと EC ファンを備えた高精度エアコンは、固定能力で動作するのではなく、実際の熱負荷に合わせて冷却出力を調整します。また、物理的なレイアウト (ホットアイルの封じ込め、最適なラック間隔、適切なサイズの穴あきタイルを備えた上げ床) は、多くの効率的な施設を損なう気流管理に対処します。
同社の認証ポートフォリオには、ISO 9001 (品質管理) および ISO 27001 (情報セキュリティ管理) が含まれます。同社の顧客展開には、Huawei、ZTE、Inspur とのパートナーシップが含まれており、米国、英国、ドイツ、フランス、オーストラリアに輸出施設があります。
長年にわたり、液体冷却はスーパーコンピューティング センターにとってニッチな技術でした。それは急速に変化しています。
NVIDIA H100 または今後の B200 GPU を使用する AI トレーニング クラスターは、純粋な空冷構成でラックあたり 30 ~ 50 キロワットを生成します。このような密度では、空冷には高い空気流量、つまり大音量のファン、深いラック、そしてまだ限界のある熱制御が必要です。
チップへの直接液体冷却により、熱源の熱の 60 ~ 80% が除去されます。チップはより低温で動作します。ファンの動作が遅くなります。ルームエアコンは、電源、メモリ、その他のコンポーネントの残留熱のみを処理します。
効率の向上は大幅です。チップへの直接冷却を備えた施設では、PUE 値が 1.1 ~ 1.2 と報告されています。トレードオフとしては、資本コストの上昇、漏水管理の複雑化、施設グレードの水処理の必要性などが挙げられます。
完全浸漬冷却 (サーバー全体を誘電性流体に浸す) により、PUE は 1.1 未満になりますが、特殊化されたままです。ほとんどの商用データセンターは、最初にチップへの直接冷却を採用し、その後、特定の高密度ゾーンに対して浸漬を採用します。
SHANGYU データセンター プラットフォームには、将来の高密度導入では施設設計に関係なく流体ベースの熱管理が必要になることを認識し、空冷と液体の両方の冷却アーキテクチャの規定が含まれています。
ほとんどのデータセンター運用チームは依然として事後対応的に働いています。警報が鳴ります。誰かが調査します。修正が適用されます。このサイクルが繰り返されます。
予測管理への移行には、多くの組織に欠けている 3 つの機能が必要です。
完全な構成データ。データセンター内にあるもの (すべてのサーバー、すべてのスイッチ、すべての PDU、すべての冷却ユニット) を把握することが基礎となります。正確な CMDB データがなければ、容量計画は推測に頼ることになります。
粒度の高いテレメトリ。ラックレベルの電力測定は最小限です。サーバーごとの電力測定の方が優れています。ワークロードレベルの電力帰属は最適ですが、達成するのが最も困難です。
信号とノイズを区別する分析。1 つのラックで温度が急上昇している場合は、ファンの故障が考えられます。データセンターの半分で温度が急上昇している場合は、冷却装置の故障を意味する可能性があります。システムは、それに応じて応答を区別し、推奨する必要があります。
SHANGYU の DCIM プラットフォームは、SNMP および Modbus デバイスのサポート、Web ベースおよび Windows アプリケーション インターフェイス、およびイベント トリガー イメージング用のネットワーク カメラとの統合を提供します。掲げられた目標は単純明快で、コストのかかるダウンタイムを削減し、完全な環境制御によって日々の運用コストを削減し、管理の可視性と追跡可能性を向上させることです。
データセンターのエネルギー消費は、世界の電力需要の約 1% を占めます。この数字は、文脈を理解するまでは小さいように思えます。これは英国の総電力消費量にほぼ相当します。
さらに重要なのは、成長率が加速していることです。業界の予測では、AI、クラウドの採用、接続デバイスの継続的な拡大により、データセンターの電力需要は 2030 年まで毎年 10 ~ 15% 増加することが示されています。このままでは、データセンターは 10 年末までに世界の電力の 3 ~ 4 パーセントを消費することになります。
過去 10 年間、電力消費量を横ばいに維持してきた効率の向上は、サーバーの仮想化 (物理サーバー数の削減)、ドライブ効率の向上 (回転ディスクから SSD への移行)、および自由冷却の広範な導入 (機械的冷却の代わりに外気を使用) によるものでした。これらの簡単に実現できる成果は、ほとんどが収穫されています。
次の効率化の波は、液体冷却、高電圧配電、AI に最適化された冷却制御、そしておそらく最も重要なことですが、インフラストラクチャの容量と実際の IT 負荷の間の調整の改善によってもたらされます。最後の部分には、DCIM システムが提供するリアルタイムの可視性と予測分析が必要ですが、十分に活用している施設はほとんどありません。
スペックシート上の数値ではなく、実際の PUE をご存知ですか?UPS の出力と IT 機器の入力を測定したことがない場合は、わかりません。違いは実際のオーバーヘッドです。
冷却システムが互いに競合していませんか?多くのデータセンターでは、CRAC ユニットは温度と湿度の帯域が重複するように設定されています。 1 台のユニットが除湿し、もう 1 台が加湿します。一方は冷却され、もう一方は再加熱されます。これは珍しいことではありません。また効率的でもありません。
サーバーのアイドル時の消費電力はどれくらいですか?業界データによると、一般的なエンタープライズ サーバーは何もしないときにピーク電力の 30 ~ 40% を消費します。未使用のサーバーをシャットダウンまたはスリープ状態にすることが、ROI 効率を最も高める方法です。それは最も見落とされているものでもあります。
機器の仕様に違反せずに、供給空気温度を 2 度上げることはできますか?おそらくそうです。ほとんどの機器の吸気温度は 25 ~ 27 度です。ほとんどのデータセンターは 20 ~ 22 度で稼働します。この 6 度の差は、何年にもわたる不必要な冷却エネルギーを表しています。
最後に UPS の効率を検証したのはいつですか?ネームプレートの効率は、完全な力率で全負荷時に測定されます。実際の力率による部分負荷時の実際の効率は 5 ~ 10 ポイント低くなる可能性があります。