もともとUbuntu ServerにはNVIDIAのグラフィックドライバーがインストールされており、nvidia-smiを実行するとステータスは正常と表示されました。CUDAドライバーをインストールした後、ステータスを確認するためにnvidia-smiを実行すると、このプロンプトが表示されました。
root@localhost:~# nvidia-smiNVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.エラーはシステムがグラフィック カードを認識していないために発生したものだと思い、PCI 情報を確認しました。
root@localhost:~# lspci | grep -i nvidia0b:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)グラフィック カード デバイスがまだ存在する場合は、ドライバーに問題があります。 この場合は、dkms を使用して nvidia ドライバーをコンパイルしてインストールします。
Dkms は Dynamic Kernel Module Support の略で、Linux カーネル モジュールを生成するためのフレームワークです。そのソース コードは通常、Linux カーネル ソース コード ツリーには存在しません。新しいカーネルがインストールされると、DKMS をサポートするカーネル デバイス ドライバーが自動的に再構築されます。 DKMS は、新しいカーネル バージョンがインストールされている場合、すべてのモジュールを自動的にコンパイルするか、手動でコンパイルしたり、事前にコンパイルされたパッケージを必要とせずに、既存のシステム バージョンに新しいモジュール (ドライバー) をインストールするという 2 つの方法で使用できます。
—— Wikipediaより
DKMSをインストールする
root@localhost:~# apt-get install dkmsNVIDIA ドライバーのバージョンを確認する
root@localhost:~# ls /usr/src | grep nvidianvidia-550.25.65dkmsを実行してNVIDIAドライバモジュールをコンパイルしてインストールします
root@localhost:~# dkms install -m nvidia -v 550.25.65/bin/bash: /usr/local/anaconda/lib/libtinfo.so.6: no version information available (required by /bin/bash)Creating symlink /var/lib/dkms/nvidia/550.25.65/source -> /usr/src/nvidia-550.25.65
Kernel preparation unnecessary for this kernel. Skipping...
Building module:cleaning build area...'make' -j8 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=5.15.0-131-generic modules.....................cleaning build area...
nvidia.ko:Running module version sanity check. - Original module - No original module exists within this kernel - Installation - Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-uvm.ko:Running module version sanity check. - Original module - No original module exists within this kernel - Installation - Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-modeset.ko:Running module version sanity check. - Original module - No original module exists within this kernel - Installation - Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-drm.ko:Running module version sanity check. - Original module - No original module exists within this kernel - Installation - Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
nvidia-peermem.ko:Running module version sanity check. - Original module - No original module exists within this kernel - Installation - Installing to /lib/modules/5.15.0-131-generic/updates/dkms/
depmod....root@localhost:~#NVIDIA ドライバー情報を表示
root@localhost:~# nvidia-smiThu Feb 20 15:11:42 2025+-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.25.65 Driver Version: 550.25.65 CUDA Version: 12.8 ||-----------------------------------------+------------------------+----------------------+| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. || | | MIG M. ||=========================================+========================+======================|| 0 Tesla T4 Off | 00000000:0B:00.0 Off | 0 || N/A 56C P0 26W / 70W | 1MiB / 15360MiB | 9% Default || | | N/A |+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+| Processes: || GPU GI CI PID Type Process name GPU Memory || ID ID Usage ||=========================================================================================|| No running processes found |+-----------------------------------------------------------------------------------------+正常に表示され、完璧です!
nvidia-smi は nvidia ドライバーと通信できないというメッセージを表示します
https://huoshen.pages.dev/ja/p/dc535881/