システム構成
さくらONEは、ベアメタルGPUサーバ「高火力PHY」を基盤とし、NVIDIA H200 GPUを8基搭載する55ノードと、NVIDIA Blackwell GPUを8基搭載する48ノードで構成されたマネージドHPCクラスタです。LLM学習・微調整、推論の大規模分散実行、数値シミュレーション、データ解析など高度なワークロードを高速に処理します。
さくらONEのノード構成
さくらONEは、計算ノードとなるH200搭載ノード群(CYC)およびB200搭載ノード群(CYB)、ユーザがアクセスするサーバおよびコンパイル・ジョブ投入などを行う各種サーバで構成されています。
ノード名称 | 役割 | ノード数 |
H200搭載ノード群 (CYC) | H200 x 8 搭載のGPU計算サーバ | 55 |
B200搭載ノード群 (CYB) | B200 x 8 搭載のGPU計算サーバ | 48 |
アクセスノード | 外部からインタラクティブノードに アクセスするためのSSHサーバ | 2 |
インタラクティブノード | コンパイル・ジョブ投入などを行うサーバ | 3 |
計算ノード(GPU搭載ノード)
H200搭載ノード
項目 | 概要 | 個数 |
GPU | NVIDIA HGX H200 SXM 141GB | 8 |
CPU | Intel Xeon Plutimun 8580+ (60 cores per CPU) | 2 |
Memory | DDR5-1.5TB | |
システムストレージ | SSD 960GB | 2 |
ローカルストレージ | SSD 7.68TB | 4 |
ネットワーク | Interconnect 400GGbE Storage 400GbE Service 10GbE | 8 1 1 |
B200搭載ノード
項目 | 概要 | 個数 |
GPU | NVIDIA HGX B200 SXM 180GB | 8 |
CPU | Intel Xeon 6960P (72 cores per CPU) | 2 |
Memory | DDR5-1.5TB | |
システムストレージ | SSD 960GB | 2 |
NVMeストレージ | SSD 7.68TB | 4 |
ネットワーク | Interconnect 400GGbE Storage 400GbE Service 10GbE | 8 1 1 |
インタラクティブノード
項目 | 概要 | 個数 |
CPU | Intel Xeon Plutimun 8580+ (60 cores) | 2 |
Memory | DDR5-2.0TB | |
システムストレージ | SSD 480GB | 2 |
NVMeストレージ | SSD 7.68TB | 4 |
ネットワーク | Storage 400GbE Service 10GbE | 1 1 |
ソフトウェア
OS
Rocky Linux 9.6 (Blue Onyx)
開発環境
計算ノードとインタラクティブノードで同じ開発環境が利用可能です。
以下がモジュールとして提供されています。
モジュール系統 | 主な内容 | 主な用途 |
CUDA | GPU計算向け開発環境 | GPUプログラムの実行・ビルド |
GCC Toolset | コンパイラ群 | ソースビルド・開発 |
cuDNN | 深層学習向けライブラリ | ニューラルネット計算の高速化 |
NCCL | GPU間通信ライブラリ | 分散学習通信の最適化 |
HPC-X | MPI/UCX通信環境 | 並列分散計算・通信 |
Miniconda | Python環境管理 | ML/科学技術Python開発 |
GPU Environment | GPUノード設定 | ハードウェア別環境切替 |
Environment Modules
The official web page for the Modules software package. The Modules package provides for the dynamic modification of a user's environment via modulefiles.
https://envmodules.io/
ジョブ管理システム
ジョブスケジューラには Slurm Workload Manager を採用しています。
SchedMD | Slurm Support and Development
SchedMD offers Slurm Support. Slurm is an HPC workload manager and cluster management software. Get expert support from SchedMD today!