在 NVIDIA Tesla V100 Power Systems Servers 上安裝適於 Linux 的 NVIDIA GPU 套件

使用此作業以在 NVIDIA Tesla V100 Power Systems Servers 上安裝適於 Linux 的 NVIDIA GPU 套件。若要啟用 GPU 處理作業,您必須安裝所需的 NVIDIA GPU 套件。

程序

  1. developer.nvidia.com/cuda-92-download-archive 中下載並安裝 NVIDIA CUDA 9.2.148。
    1. 選取作業系統:Linux。
    2. 選取架構:ppc64le。
    3. 選取發行套件:RHEL。
    4. 選取版本:7。
    5. 選取安裝程式類型:rpm(本端)。本端 rpm 優先於網路 rpm,因為它可確保安裝的版本是下載的版本。透過網路 rpm,yum install cuda 指令一律會安裝最新版本的 CUDA 工具箱。
    6. 下載以下載基本安裝程式。
    7. 下載以下載修補程式 1。
    8. 遵循 CUDA Quick Start Guide 中的 Linux on POWER 安裝指示,包括說明如何透過更新 PATHLD_LIBRARY_PATH 來設定 CUDA 開發環境的步驟。
  2. http://www.nvidia.com/Download/index.aspx 中下載 NVIDIA 驅動程式 410.104。
    1. 選取產品類型:Tesla。
    2. 選取產品系列:V-Series。
    3. 選取產品:Tesla V100。
    4. 選取作業系統:Linux POWER LE RHEL 7。
    5. 選取 CUDA 工具箱:10.0。
    6. 按一下搜尋以跳至下載鏈結,然後按下載
  3. 註: 對於 IBM® Power® System AC922 系統,在您安裝最新的 GPU 驅動程式之前需要作業系統及系統韌體更新。
    安裝 CUDA 及 GPU 驅動程式:
    1. 安裝 CUDA 基本儲存庫 rpm。
    2. 安裝 CUDA 修補程式 1 儲存庫 rpm。
    3. 安裝 GPU 驅動程式儲存庫 rpm。
    4. 執行下列指令以安裝 CUDA、修補程式及 GPU 驅動程式:
      sudo yum install cuda
    5. 重新啟動系統以啟動驅動程式。
  4. 使用下列 Shell 指令來啟用 NVIDIA 系統持續性服務:
    systemctl enable nvidia-persistenced
  5. 使用下列 Shell 指令來檢查 NVIDIA 驅動程式:
    nvidia-smi
  6. developer.nvidia.com/cudnn 中,下載 NVIDIA cuDNN v7.4.2 for CUDA 10.0 (cuDNN v7.4.2 Library for Linux (Power8/Power9))。需要在 NVIDIA Accelerated Computing Developer Program 中註冊。
  7. developer.nvidia.com/nccl 中,下載 NVIDIA NCCL v2.3.7 for CUDA 10.0(NCCL 2.3.7 不可知 O/S 和 CUDA 10.0 及 IBM Power)。需要在 NVIDIA Accelerated Computing Developer Program 中註冊。
  8. 安裝 cuDNN 7.4.2 版及 NCCL 2.3.7 版套件,然後透過使用下列指令來重新整理共用程式庫快取:
    sudo tar -C /usr/local --no-same-owner -xzvf cudnn-9.2-linux-ppc64le-v7.4.2.tgz
    sudo tar -C /usr/local --no-same-owner -xzvf nccl_2.3.7+cuda10.0_ppc64le.tgz
    sudo ldconfig