株式会社HPCソリューションズ　～ハイパフォーマンスコンピューティングアンドスーパーコンピューターインテグレーションカンパニー｜株式会社HPCソリューションズ　～ハイパフォーマンスコンピューティングアンドスーパーコンピューターインテグレーションカンパニー

GPUシステムが利用されるシーンと特徴

コンテナ実行環境さえ整っているシステムであれば、特定のコンテナがどこでも実行できる
(理研富岳、産総研 ABCI、名大不老など)
共用システム内に入っていないソフトウェアやライブラリをコンテナ化し、実行したいプログラムに必要な実行環境を事前に整えておくことができる
他人が作ったコンテナを使うことで自身はロジックを書くことに専念するといったことが可能
(Docker HubやNGCなどからコンテナダウンロードして利用)
自身が作ったコンテナをコピーして他人に渡すことで同じ環境を使うことが可能
(プログラムの共同開発や共同研究などに有効)
研究論文の際に実行環境とプログラムをセットで公開して発表することができる
コンテナとプログラムをバックアップしておくことで、研究論文作成に使った環境などを長期保存することができる
(後日反論・異論などを受けて再調査する際にもすぐに環境を準備することができる)

誰が今使っているのか、次に誰が使うのかなど調整が煩雑
【解決策】ジョブスケジューラを使ってシステマティックに管理
1台の計算機に複数GPUが登載されている場合、使用するGPUのデバイスIDをいちいち指定するのが面倒(環境変数 NVIDIA_VISIBLE_DEVICES で指定する)
【解決策】使用できるGPUデバイスIDはジョブスケジューラが自動で付与し、利用者は常にデバイスIDを0から必要数分だけ利用できるものとして意識すれば良い
Dockerを使用する場合、root権限を考慮して運用する必要があり、セキュリティ面の不安が残る
【解決策】 Singularityコンテナであればユーザ権限で実行されるため安心
Dockerを使って、複数GPUおよび複数計算機を使用した並列計算(horovod)実行は手間が煩雑
【解決策】 Singularityコンテナのhorovodを使うことでmpiexecが使えるので簡単