1年間量子コンピューティング向け、生成AI向け本格的GPU サーバーを運用してみて

量子コンピューティングの会社ですが GPU を扱っています。

当初は量子コンピューティング向けのフレームワークであるcuQuantumを中心に運用してまいりましたが、途中で急にChatGPTが流行ったため、そこに生成 AI も加わりGPUの需要が急増しています。そこで弊社では GPU をたくさん扱うためのノウハウを会得するために奮闘してきました。最初は小さな部屋からスタートし、何も分からないので普通の Amazon で買ったコンシューママシンを組み立ててみました。ケースはサーバーラックに入るものがあったので、形だけでもサーバーラックを組み立ててみようと思い18Uの小型サーバーラックを導入し、そこに何台か Amazon で購入したマシンを導入していました。

当初は何も分からないので家庭用マシンで運用していましたが、次第にネットワークやら熱やら設定など様々なメンテナンスがかかることがわかってきました。昨年、その勢いでプロフェッショナル向けのGPUを購入しましたこれは少し旧型ですが NVIDIAのV100が8台搭載されたマシンを3台購入し接続しています（合計24GPU）。こうしたプロフェッショナルマシンはコンシューマのマシンと比べると全然使い方が異なります。

お作法から全くノウハウがない中、担当の方に頑張っていただき非常にうまくいきました。中身に入っているソフトウェアは流行りの生成 AI や量子コンピューティング向けのシミュレーションの GPU ソフトウェアです。ソフトウェアの使い方によってだいぶ GPU マシンの稼働状況も変わります。そんなこんなで新しいノウハウをどんどん蓄積していきました。一般的には生成 AI など負荷の高いものを利用すると GPU マシンの稼働率や負荷が上がります。待機状態ではそんなに熱も発生しないと思うのですが、負荷が上がると途端に GPU マシンは騒音と熱を発するようになります。

ある程度クラウドの提供環境においてこうした GPU のマシンの負荷による熱や騒音というのは、構築当初は全くわからなかったので、こうした新しいノウハウを重ねていきました。2023年現在一番困っているのは熱と騒音です。当初は電力が問題になるかと思われましたが、当初必要な電力は専用施設に入居することにより解決をしまして、実験をすることができるようになりました。それよりもその電力を利用して発生した熱や騒音の処理に困ります。熱はその消費電力から決まります。GPUを利用すると熱が大量に出ますので、そうした熱を廃棄するためのファンが搭載されています。負荷が高くなるとファンから高温の熱風が出るため、その熱を処理する必要があるのですが、通常のデータセンターや普通の居室ではそうした熱を処理するほどのものは考えられていません。そのため、結論としては自分たちで一からハイパフォーマンスコンピューティング向けの建屋を建てる必要があると考えています。大学の設備でも同じようにハイパフォーマンスコンピューティングがあると考える方もいらっしゃると思いますが、そうした大学や研究所はビジネスを想定していないため、運用が意外と手作業だったりあとスケールアウトができないような固定した設計の形になっています。

われわれはこうしたGPUの管理ノウハウを取得し、今後はスケールアウトするような設計をベースとして、今後のさらなるGPUの発熱や扱いに関する知識を統合すると、今後は空調等を利用して冷やすよりも水冷を行った方が利便性が高くなるのではないかと考え始めました。

データセンターは基本的には水冷を使うようには設計されていないようです。通常のデータセンターではCPUを利用して計算を行う処理を行うと言うことを通常のファンと呼ばれる扇風機の小型のようなもので熱を押し出します。押し出された熱は空調によって外に熱が廃棄されます。しかしhigh-performanceコンピューティングはこのようなサーバーとは異なり、CPUだけではなく、GPUも大きな負荷をかけて演算を行います。弊社でも当初空調などを利用してホットアイル、ゴールドアイルと呼ばれる高い部屋と冷たい部屋を分けて管理するような方法を考えていました。そうすることにより効率的に冷たい空気をサーバーの前面の吸気がわで、暖かい空気をサーバーの廃棄がわで分けることによって効率的に熱の管理ができると考えました。しかし、実際にはhigh-performanceコンピューティングにはいくつかの課題があります。まず1つ本体が非常に重たいこと、2つ一台あたりの消費電力がとても高いことなどです。従来の天井まで届くような大きなサーバーラックにサーバーをたくさん詰めて運用がかなり難しいです。そのため、どうしてもこのようなhigh-performanceコンピューティングはサーバーラックあたりに搭載できる台数が制限されてしまいます。どちらかと言うと、電力や熱等は台数がたくさんあると言うよりも、1台あたりの熱量や消費電力が大きいため、これまでのサーバーラックの管理とはちょっと違うのではないかと感じます。

効率的に考えると、こうした熱をなんとなく分けて管理するよりも、熱源に近いところで積極的に冷やして行った方が良いのではないかと考えていました。最近出張で専門の業者様とお話しする機会があった場合、リアドアと呼ばれるサーバの直後にラジエターを置いてパッシブもしくはアクティブで冷やしていくと言う方法が良いと聞きました。こうすることによりサーバーの後部で暖かい風を冷たい冷却フィンに当たることにより空気を減らすことができます。これはサーバー側の後ろの部分で直接熱を処理することにより、部屋全体の熱源の区分けをする必要がないと言う点で非常に効率的に思いました。このようなリアドア方式によってラックを閉鎖的に管理することにより、ある程度処理できるんではないかと考えました。これはサーバー自体が空冷などの従来型のサーバーの冷却方式のもの、手っ取り早く管理するには良いかなと思いました。

実際には、これらの空冷方式は、サーバー自体の効率性が上がったと言うよりも、後付けで管理をしたい場合に利用すると言うふうになっています。弊社ではこれらはお客様のサーバを使って行うサービスではなく、自社のクラウドサービスを管理していく、そして拡張していくと言う自社サービスになっています。そのため、サーバー構成は比較的自由であり、今後は人員や事業の拡大において、最も効率的なサーバの拡張計画を選択することができます。そう考えると、サーバーラックをリアドア方式を採用して行うと言う以上に、サーバー自体に選択肢があるため、CPUやGPUをコールドプレートと呼ばれる部品とそれを組み合わせたコールドプレート方式を採用することもできます。コールドプレート方式は、CPUやGPUに直接そいでれの冷却水を循環させ、その冷却水自体をまとめて冷却することにより効率的に冷却をすることができます。通常私たちのサーバールームにおいては、high-performanceコンピューティングの課題である騒音については小型のファンが高出力で回転することにより大きなノイズが出ます。これらであればこうしたサーバーラックのサイズに合わせた小型のファンによる騒音は解決されると考えられます。実際にはまだこれから水冷方式の実験を始める予定ですので、まだどうなるか分かりませんが、一旦の展望として語っておきます。

ビジネス的にも水冷方式と言うのは非常にチャンスであると考えられます。日本ではなかなか大型のGPUサーバーを利用したAIシステムや量子システム等を利用する機会も多くは無いかもしれません。弊社でも多くの手法を国内で探しましたが、まだまだAI人工知能向けのデータセンターと言うのはあまりないように見受けられました。自社でもGPUの運用していて、こうした外部に安定して多くの熱源を管理しながら難しいシステムを提供すると言うノウハウを持っている会社はそう多くないのではないかと感じました。多くの課題として聞いたのがGPUのシステムを作ったとしても、お客様がいないと言う課題です。どうしても形先行となると箱物になりやすく、需要を見失いがちと聞きました。その点、弊社ではすでに量子コンピューティングクラウドサービスを運用しており、最近では増えています。量子コンピューティングやAIのアプリケーションを効率的に開発するためにも弊社のクラウドサービスは非常に伸びています。こうしたお客様優先のシステムにおいて、弊社の得意分野であるクラウドサービスの構築やアプリケーションの構築と言うコンテンツが既にある場合、弊社の課題としましてはGPUの安定供給が課題でしたので、こうした水冷を使った効率的なGPUの管理手法を導入することにより、クラウドサービスやソフトをより強化することができます。

弊社では現在クラウドサービスとして、外部のクラウドサービスと自社の演算サーバーをハイブリットで利用しています。ともにクラウドシステムとして運用しており、弊社のGPUクラウドシステムにも多くの自動管理ツールが導入されています。ですので、インフラを一つ一つ管理するのではなく、サービスとしてスケールする形で管理ができています。そのため、こうしたスケーラブルなGPUの管理方法というのは非常に重要となっており、こうしたサービスの発展に関して多くの知見が得られています。多くの方がご存知の通り、現在AIは非常に流行っています。弊社でも日本国内のみならず全世界からGPUを利用したいと言う問い合わせをいただいており、実際に海外の方から弊社のGPUサーバーをご利用いただいております。

弊社ではこうしたデータセンターの事業は比較的拡張していきたいと考えており、現在GPUのみならず量子コンピューティングにおいてもこうした拡張性のある方式として半導体方式の小型量子コンピューターを開発しています。現在の量子コンピュータはどうしても大きくなります。そのため、こうした半導体を利用した新しい量子コンピューターを利用することにより、冷却の手間などが改善され、デスクトップ型やデータセンター型などの小型量子コンピューターが開発しやすくなります。これらGPUと量子コンピューティングをハイブリットで、今後は導入することにより、より多くのクラウドで量子コンピュータやAIの開発を容易に行っていただくことができると思います。GPUに関しては非常に需要が増えています。昨今のAIの発展において、人間がこれまで行わなくてはいけなかったような作業が容易にAIで行うようになりました。こうした基盤を支えるのは、海外のGAFAと呼ばれる大手のIT企業が多かったのですが、弊社でも同様の管理をしたGPUサーバーを提供できるようになってきています。通常多くのマシンを支える場合、利用率によってコストが変わります。弊社ではまだまだ台数は少ないですが、効率的な台数の管理をしていきたいと考えています。最近では演算のGPUサーバーとファイルを保管するファイルシステムを分けて管理するになってきました。より大きなクラウドサービスを目指して、特に量子コンピューティングと機械学習に特化した形でのデータセンターの管理や運用を突き詰めていきたいと考えています。

まだ1年しかGPUを利用して立っていませんが、多くのことを学びました。クラウドシステムの裏側では多くの人が実際のハードウェアと向き合い、そしてその構成や効率性熱や廃棄騒音など多くの課題に取り組みながらフロントエンドに提供しています。弊社でもこうした新しい運用、そしてまだまだこうした新しい分野でのサーバーの提供と言うのは国内ではあまり多くはないと感じました。そのためこうした新しい水冷システムや効率的な管理方法、そしてソフトウェアやクラウドサービスやアプリケーションフレームワークをスケーラブルに提供できる環境と言うのは、事業としてまだまだ必要であると考えています。ようやくGPUを使いこなしてきてスケーラブルなシステムが使えるようになってきましたので、2023年まだ半分ありますので、ここからアクセルを踏んでどんどん新しいシステム、そして規模を拡大していきたいと考えています。弊社のクラウドサービスは見た目は非常にシンプルで簡潔です。しかし、ログインするだけで、こうした量子コンピューティングのアプリケーションや最新の量子コンピュータを利用することができます。かつ企業の新しいクラウドサービスでは、GPUが標準搭載となっています。こうしたインフラストラクチャは自社内での運用が完結しているため、今後も皆様に使いやすいシステムをよりリーズナブルな価格で提供できる見込みがありますので、ぜひともご注目ください。以上です。

1年間 量子コンピューティング向け、生成AI向け本格的GPU サーバーを運用してみて

Yuichiro Minato

1年間量子コンピューティング向け、生成AI向け本格的GPU サーバーを運用してみて