こんにちは、ポエマーです。量子コンピュータのシミュレーションやディープラーニングやりたいですよね。弊社では川崎市に一部屋借りて電力を確保し、AI向けのサーバーをおいて夏を乗りきれるか運用しました。結果。。。
無理でした。
基本的には量子コンピュータまでおきたかったのですが、それどころではなくGPUマシンでギブアップです。
空冷の2CPU 8GPUマシンをそれぞれ3台。その他に単発のA4500やA100等を複数台です。
最初に想定していたのは電力でした。普通のご家庭ではそれほどの電力とれなさそうなので。10-30KWほど確保する必要があります。今回は川崎市の研究施設を借りて電力を確保しました。今年のはじめくらいの話です。その前は個室でしんみりと準備してました。
75平米あるので平気だろうとたかをくくってました。
結論、まず一台ぶっ壊れました。残り二台も管理しきれず、プロのもとへと送り込む羽目になりました。今年の夏を乗りきれませんでした。
素人考えだと電力が確保できればいけるだろうと考えてましたが、問題はその後のはい熱と騒音ですね。特にはい熱はこうした研究施設ではどうにも対策できませんでした。巨大なダクトでガンガンはい熱しないと、たかが三台でもきついです。10-30kwの熱源が常に室内にあると考えると、まずもって空調ごときで対応できません。
音もヤバイ。ファンが小さいので高い音で爆音します。専用設備いれないと室内でも近隣から苦情来ます。
そして壊れます。アラートでるので電源抜き差ししたり、GPUが認識しなくなる電源系のトラブル、原因不明のエラーなど、ハード由来かソフト由来か含めてメンテナンスがきついです。そして私たちの1000万以上するサーバーは壊れて8GPUのうち4GPU認識しなくなり、修理で戦線離脱です。夏を越せませんでした。
必要だったのは綿密な冷却の計画でした。騒音も耐えられないので、次の一手は水冷です。空冷の時もそうでしたが、小型のシステムを組んでから大型をいれますが、また水冷の小型から始めてます。
ここまでやるのに一年かかりました。水冷の検証でもう一年かかりそうですが、懲りずにやろうと思います。その後には本格的な量子コンピュータ本体の運用と検証も始まるので休む時間ありません。
皆様も迂闊にAIサーバーに手を出すと泣きますので、きちんとメンテナンスと運用の費用も考慮にいれましょう。めちゃくちゃコストかかります。