もともとUbuntu ServerにはNVIDIAのグラフィックドライバーがインストールされており、nvidia-smiを実行するとステータスは正常と表示されました。CUDAドライバーをインストールした後、ステータスを確認するためにnvidia-smiを実行すると、このプロンプトが表示されました。

Terminal window
root@localhost:~# nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

エラーはシステムがグラフィック カードを認識していないために発生したものだと思い、PCI 情報を確認しました。

Terminal window
root@localhost:~# lspci | grep -i nvidia
0b:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)

グラフィック カード デバイスがまだ存在する場合は、ドライバーに問題があります。 この場合は、dkms を使用して nvidia ドライバーをコンパイルしてインストールします。

Dkms は Dynamic Kernel Module Support の略で、Linux カーネル モジュールを生成するためのフレームワークです。そのソース コードは通常、Linux カーネル ソース コード ツリーには存在しません。新しいカーネルがインストールされると、DKMS をサポートするカーネル デバイス ドライバーが自動的に再構築されます。 DKMS は、新しいカーネル バージョンがインストールされている場合、すべてのモジュールを自動的にコンパイルするか、手動でコンパイルしたり、事前にコンパイルされたパッケージを必要とせずに、既存のシステム バージョンに新しいモジュール (ドライバー) をインストールするという 2 つの方法で使用できます。

—— Wikipediaより

DKMSをインストールする

Terminal window
root@localhost:~# apt-get install dkms

NVIDIA ドライバーのバージョンを確認する

Terminal window
root@localhost:~# ls /usr/src | grep nvidia
nvidia-550.25.65

dkmsを実行してNVIDIAドライバモジュールをコンパイルしてインストールします

Terminal window
root@localhost:~# dkms install -m nvidia -v 550.25.65
/bin/bash: /usr/local/anaconda/lib/libtinfo.so.6: no version information available (required by /bin/bash)
Creating symlink /var/lib/dkms/nvidia/550.25.65/source -> /usr/src/nvidia-550.25.65
Kernel preparation unnecessary for this kernel. Skipping...
Building module:
cleaning build area...
'make' -j8 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=5.15.0-131-generic modules.....................
cleaning build area...
nvidia.ko:
Running module version sanity check.
- Original module
- No original module exists within this kernel
- Installation
- Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-uvm.ko:
Running module version sanity check.
- Original module
- No original module exists within this kernel
- Installation
- Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-modeset.ko:
Running module version sanity check.
- Original module
- No original module exists within this kernel
- Installation
- Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-drm.ko:
Running module version sanity check.
- Original module
- No original module exists within this kernel
- Installation
- Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-peermem.ko:
Running module version sanity check.
- Original module
- No original module exists within this kernel
- Installation
- Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
depmod....
root@localhost:~#

NVIDIA ドライバー情報を表示

Terminal window
root@localhost:~# nvidia-smi
Thu Feb 20 15:11:42 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.25.65 Driver Version: 550.25.65 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 Tesla T4 Off | 00000000:0B:00.0 Off | 0 |
| N/A 56C P0 26W / 70W | 1MiB / 15360MiB | 9% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+

正常に表示され、完璧です!