在 NVIDIA Tesla V100 Power Systems Servers 上安裝適於 Linux 的 NVIDIA GPU 套件

使用此作業以在 NVIDIA Tesla V100 Power Systems Servers 上安裝適於 Linux 的 NVIDIA GPU 套件。若要啟用 GPU 處理作業，您必須安裝所需的 NVIDIA GPU 套件。

程序

從 developer.nvidia.com/cuda-92-download-archive 中下載並安裝 NVIDIA CUDA 9.2.148。
1. 選取作業系統：Linux。
2. 選取架構：ppc64le。
3. 選取發行套件：RHEL。
4. 選取版本：7。
5. 選取安裝程式類型：rpm（本端）。本端 rpm 優先於網路 rpm，因為它可確保安裝的版本是下載的版本。透過網路 rpm，yum install cuda 指令一律會安裝最新版本的 CUDA 工具箱。
6. 按下載以下載基本安裝程式。
7. 按下載以下載修補程式 1。
8. 遵循 CUDA Quick Start Guide 中的 Linux on POWER 安裝指示，包括說明如何透過更新 PATH 及 LD_LIBRARY_PATH 來設定 CUDA 開發環境的步驟。
從 http://www.nvidia.com/Download/index.aspx 中下載 NVIDIA 驅動程式 410.104。
1. 選取產品類型：Tesla。
2. 選取產品系列：V-Series。
3. 選取產品：Tesla V100。
4. 選取作業系統：Linux POWER LE RHEL 7。
5. 選取 CUDA 工具箱：10.0。
6. 按一下搜尋以跳至下載鏈結，然後按下載。
註：對於 IBM® Power® System AC922 系統，在您安裝最新的 GPU 驅動程式之前需要作業系統及系統韌體更新。
安裝 CUDA 及 GPU 驅動程式：
1. 安裝 CUDA 基本儲存庫 rpm。
2. 安裝 CUDA 修補程式 1 儲存庫 rpm。
3. 安裝 GPU 驅動程式儲存庫 rpm。
4. 執行下列指令以安裝 CUDA、修補程式及 GPU 驅動程式：
  sudo yum install cuda
5. 重新啟動系統以啟動驅動程式。
使用下列 Shell 指令來啟用 NVIDIA 系統持續性服務：
systemctl enable nvidia-persistenced
使用下列 Shell 指令來檢查 NVIDIA 驅動程式：
nvidia-smi
從 developer.nvidia.com/cudnn 中，下載 NVIDIA cuDNN v7.4.2 for CUDA 10.0 (cuDNN v7.4.2 Library for Linux (Power8/Power9))。需要在 NVIDIA Accelerated Computing Developer Program 中註冊。
從 developer.nvidia.com/nccl 中，下載 NVIDIA NCCL v2.3.7 for CUDA 10.0（NCCL 2.3.7 不可知 O/S 和 CUDA 10.0 及 IBM Power）。需要在 NVIDIA Accelerated Computing Developer Program 中註冊。
安裝 cuDNN 7.4.2 版及 NCCL 2.3.7 版套件，然後透過使用下列指令來重新整理共用程式庫快取：
sudo tar -C /usr/local --no-same-owner -xzvf cudnn-9.2-linux-ppc64le-v7.4.2.tgz
sudo tar -C /usr/local --no-same-owner -xzvf nccl_2.3.7+cuda10.0_ppc64le.tgz
sudo ldconfig