AI の最適化がデータセンターの設計に与える影響
コリン・ライアン著
2日前
テート・カントレル。 画像: パヴェル・スワイダー
Verne Global のTate Cantrell 氏が、複雑な冷却要件から NATO レベルのセキュリティ プロトコルに至るまで、AI がデータセンター設計に与える影響について説明します。
最近、Meta は、AI に最適化されたデータセンター設計を含む AI の進歩計画の詳細を共有し、新しい設計は「液冷 AI ハードウェアと、データセンター用の数千の AI チップを接続する高性能 AI ネットワーク」をサポートすると述べました。 -スケール AI トレーニング クラスター」。
同社はまた、新しい設計はより迅速に、よりコスト効率よく構築できると述べた。 しかし、AI の最適化は実際にデータセンター設計の複雑さにどのような影響を与えるのでしょうか?
それを知るために、私たちは Verne Global の最高技術責任者、Tate Cantrell に話を聞きました。彼は、AI の適切な操作性に対応するためにデータセンターの設計が変更されるさまざまな方法についての洞察を与えてくれました。
「データセンターの設計は、電力需要、冷却要件、高いセキュリティ、極めて高いレベルの信頼性、ネットワークへの高速アクセスのバランスをとる複雑な作業です」とキャントレル氏は述べています。
「AI モデルには、はるかに高い強度と密度のコンピューティングが必要であり、従来のデータセンター設計の課題に新たな次元の複雑さが加わります。」
Cantrell 氏によると、AI モデルのホスティングによって影響を受ける中心的なパラメーターには、電源と信頼性があります。 より高密度のサーバーラックの必要性。 そしてスケーラビリティ。
「このような極端な条件向けに設計されていない従来のデータセンターは、信頼できるパフォーマンスを提供できません。 最終的に、データセンター業界が AI テクノロジーの需要に対応するには、データセンターの設計を変更する必要があります。」
しかし、なぜ AI モデルには高密度のコンピューティングが必要なのでしょうか? カントレル氏は、AIコンピューティングには「データセンター内のサーバー間の極めて低遅延なネットワーク接続」が必要だからだと述べた。
「数年前の平均ラック密度はラックあたり 5kW でした。 しかし、最新世代の AI スーパーコンピューターは、データセンター インフラストラクチャからさらに多くのことを必要とします。
「これらのシステムを 1 つのラックに 4 つ搭載するだけで、一般的なコンピューティング ラックのスペースの 60% しか占有しないにもかかわらず、40kW 以上を消費する可能性があります。 したがって、データセンターが AI ハードウェアを効果的に処理するには、この種の高密度コンピューティングが可能である必要があります。」
Cantrell 氏によると、従来のほとんどのデータセンターには、特に冷却の観点から、AI ニューラル ネットワークのトレーニングに必要な「膨大な」コンピューティングを処理する設備がありません。
従来のデータセンターは、冷却を助けるために広い間隔で配置されたサーバー ラックに依存していますが、機械学習アプリケーションでは、導入の全体的なコストを最小限に抑えながら、サーバー間の遅延と帯域幅容量を最適化するため、互いに近接して配置されたラックが必要です。
「複雑さに加えて、空冷システムが互いに接近しすぎて配置されていると、大容量サーバーの極端なエアフロー要件が互いに衝突し、装置内の冷却ファンに背圧が発生する可能性があるため、冷却不足が発生する可能性があります。」とキャントレル氏は述べています。追加した。
「したがって、データセンターは、データホールの設置面積を削減するという経済的プレッシャーと、適切な冷却のための十分なスペースを提供する必要性とのバランスを取る必要があります。
「これが、液体冷却の採用が加速すると考えられる理由の 1 つになるでしょう。」
複雑な冷却要件だけでは不十分であるかのように、完全に構成すると 1.5 トンを超える可能性がある重い AI コンピューティング キャビネットの移動を可能にするために、データセンターは「構造的に重い機器を扱える」必要があるとカントレル氏は述べています。
「データセンターのセキュリティに関しては、AI 自体も果たすべき役割を担っています」
キャントレル氏は、AI モデルのトレーニング対象となるますます大規模化するデータセットを収容して分析できるようにするには、データセンターのインフラストラクチャが「接続性、俊敏性、拡張性」の要求に応えられる必要があると述べています。