序文
プライベート AI モデル トレーニング用に GPU コンピューティング サーバーを展開します。この展開では、Ubuntu システムを例として使用します。
| 名前 | バージョン | アーチ |
|---|---|---|
| Ubuntu | 22.04 | x86_64 |
| NVIDIA ドライバー | 570.124.06 | x86_64 |
| CUDA11 | 520.61.05 | x86_64 |
| CUDNN | 9.8.0.87 | x86_64 |
⚠️ 注意 サービスを構成する前に、バージョン間の互換性の問題がないか確認してください。そうしないと、トレーニング環境を展開するときにさまざまなエラーが発生する可能性があります。
NVIDIA グラフィック カード ドライバーのダウンロード CUDA ドライバー バージョン ダウンロード リスト CUDNNライブラリバージョンダウンロードリスト
UbuntuにNVIDIAグラフィックカード環境をインストールするための準備
2.1 システムベースの依存関係をインストールする
koevn@localhost:~$ sudo apt install -y build-essential dracut-core linux-headers-$(uname -r)2.2 LinuxがNVIDIAグラフィックカードを認識するかどうかを確認する
koevn@localhost:~$ sudo lspci | grep -i nvidia03:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)2.3 Linux Nouveauが無効になっているかどうかを確認する
koevn@localhost:~$ sudo lsmod | grep nouveaunouveau 2306048 0mxm_wmi 16384 1 nouveaui2c_algo_bit 16384 1 nouveaudrm_ttm_helper 16384 1 nouveauttm 86016 3 vmwgfx,drm_ttm_helper,nouveaudrm_kms_helper 311296 2 vmwgfx,nouveauvideo 65536 1 nouveauwmi 32768 2 mxm_wmi,nouveaudrm 622592 7 vmwgfx,drm_kms_helper,drm_ttm_helper,ttm,nouveau上記の情報が表示された場合、システム nouveau がロード中であることを意味します。 nouveauを無効にするには、次の操作を実行します。
koevn@localhost:~$ sudo cat > /etc/modprobe.d/blacklist-nouveau.conf << EOFblacklist nouveauoptions nouveau modset=0EOFkoevn@localhost:~$ sudo dracut --forcekoevn@localhost:~$ sudo rebootここでシステム nouveau を無効にする必要があるのは、nouveau はオープンソースであるのに対し、NVIDIA が提供するクローズド ソースの公式ドライバーをインストールするためです。無効にしないと、Linux システムはデフォルトで nouveau をロードし、2 つのドライバー間で競合が発生し、奇妙な問題が発生します。
システムが再起動したら、sudo lsmod | grep nouveauコマンドを実行して、出力があるかどうかを確認します。そうでない場合は、システムは完了です。
NVIDIA ドライバーをインストールする
ダウンロードしたNVIDIAドライバーパッケージをLinuxにアップロードしてインストールします
koevn@localhost:~$ cd /tmpkoevn@localhost:/tmp$ sudo chmod +x NVIDIA-Linux-x86_64-570.124.06.runkoevn@localhost:/tmp$ sudo ./NVIDIA-Linux-x86_64-570.124.06.run -no-opengl-files -no-nouveau-check
- -no-opengl-files: 使用しているシステムはGUIではないため、NVIDIAが提供するOpenGLダイナミックライブラリは使用しないでください。
- -no-nouveau-check: スキップ 新規チェックNVIDIA ドライバーが正常にインストールされていることを確認します
koevn@localhost:~$ sudo nvidia-smiTue Apr 8 16:12:06 2025+-----------------------------------------------------------------------------------------+| NVIDIA-SMI 570.124.06 Driver Version: 570.124.06 CUDA Version: 12.8 ||-----------------------------------------+------------------------+----------------------+| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. || | | MIG M. ||=========================================+========================+======================|| 0 Tesla T4 Off | 00000000:03:00.0 Off | 0 || N/A 50C P0 25W / 70W | 1MiB / 15360MiB | 9% Default || | | N/A |+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+| Processes: || GPU GI CI PID Type Process name GPU Memory || ID ID Usage ||=========================================================================================|| No running processes found |+-----------------------------------------------------------------------------------------+CUDAをインストールする
CUDA ドライバー バージョン ダウンロード リストに従って、システム バージョンとアーキテクチャを選択し、[ダウンロード] > [インストール タイプが runfile (local) のインストール パッケージをダウンロード] を選択して、Linux にアップロードし、インストールします。

koevn@localhost:/tmp$ wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.runkoevn@localhost:/tmp$ sudo chmod +x cuda_11.8.0_520.61.05_linux.runkoevn@localhost:/tmp$ sudo ./cuda_11.8.0_520.61.05_linux.run --no-opengl-libs --toolkitインストール手順


⚠️ 注意 NVIDIAグラフィックドライバーは以前にインストールされているため、この手順でスペースバーを押してグラフィックドライバーのインストールの選択を解除し、インストールを選択します。
インストールが完了しました。プロンプトに従ってシステム環境変数を設定します
koevn@localhost:~$ sudo cat > /etc/profile.d/cuda.sh << EOFexport PATH=/usr/local/cuda-11.8/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATHEOFCUDAが正常にインストールされていることを確認する
koevn@localhost:~$ sudo nvcc -Vnvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2022 NVIDIA CorporationBuilt on Wed_Sep_21_10:33:58_PDT_2022Cuda compilation tools, release 11.8, V11.8.89Build cuda_11.8.r11.8/compiler.31833905_0CUDNNを追加
対応するcudnnバージョンをダウンロードしてLinuxにアップロードし、次の操作を実行します。
koevn@localhost:/tmp$ tar -xvf cudnn-linux-x86_64-9.8.0.87_cuda11-archive.tar.xzkoevn@localhost:/tmp$ mv cudnn-linux-x86_64-9.8.0.87_cuda11-archive cudnnkoevn@localhost:/tmp$ cd cudnnkoevn@localhost:/tmp/cudnn$ sudo cp lib/* /usr/local/cuda-11.8/lib64/koevn@localhost:/tmp/cudnn$ sudo cp include/* /usr/local/cuda-11.8/include/koevn@localhost:/tmp/cudnn$ sudo chmod a+r /usr/local/cuda-11.8/lib64/*koevn@localhost:/tmp/cudnn$ sudo chmod a+r /usr/local/cuda-11.8/include/*CUDNNのバージョンを確認する
koevn@localhost:/tmp/cudnn$ sudo cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2#define CUDNN_MAJOR 9#define CUDNN_MINOR 8#define CUDNN_PATCHLEVEL 0--#define CUDNN_VERSION (CUDNN_MAJOR * 10000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)
/* cannot use constexpr here since this is a C-only file */それでおしまい!