nvidia-smi命令¶
示例:
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01 Driver Version: 535.183.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 Tesla V100-SXM2-32GB Off | 00000000:00:09.0 Off | 0 |
| N/A 38C P0 37W / 300W | 12670MiB / 32768MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
顶部信息
NVIDIA-SMI 535.183.01:
显示的是 NVIDIA 系统管理接口(nvidia-smi)的版本号。
这是 NVIDIA 提供的工具,用于管理和监控 GPU。
Driver Version: 535.183.01:
表示当前安装的 NVIDIA 驱动程序版本号。
CUDA Version: 12.2:
显示当前支持的 CUDA 版本。
CUDA 是 NVIDIA 提供的用于并行计算的工具包。
GPU 状态
GPU Name:
显示 GPU 的型号和配置。
在这里是 Tesla V100-SXM2-32GB,这是 NVIDIA 的一款高性能计算 GPU,拥有 32GB 的显存。
Persistence-M:
这表明 GPU 持久化模式(Persistence Mode)的状态。
Off 表示该模式关闭。
开启此模式可以保持 GPU 驱动在系统重启后不被卸载。
Bus-Id:
显示 GPU 在系统总线上的位置(在 PCIe 总线上的标识)。
这里 00000000:00:09.0 表示 GPU 的总线 ID。
Disp.A:
表示显示器活动状态。
Off 表示 GPU 没有连接到显示器或不用于显示任务。
Volatile Uncorr. ECC:
表示易失性非纠错(ECC)内存错误的数量。
0 表示没有检测到此类错误。
温度和功耗
Fan:
风扇状态。
N/A 表示不适用或没有风扇信息。
Tesla V100 可能没有风扇或其风扇速度不可用。
Temp:
当前 GPU 的温度。
这里是 38C,表示 GPU 温度为 38 摄氏度。
Perf:
显示 GPU 性能状态。
P0 表示 GPU 处于最高性能状态。
Pwr:Usage/Cap:
显示 GPU 当前功耗和最大功耗。
37W / 300W 表示当前功耗为 37 瓦特,最大功耗为 300 瓦特。
内存使用情况
Memory-Usage:
显示 GPU 内存的使用情况。
12670MiB / 32768MiB 表示 GPU 总共 32GB 内存中,已使用 12.67GB。
GPU-Util:
GPU 的使用率。
0% 表示 GPU 当前没有进行计算任务或完全空闲。
Compute M.:
计算模式。
Default 表示使用默认计算模式。
MIG M.:
显示多实例 GPU(MIG)模式的状态。
N/A 表示此 GPU 不支持 MIG 功能。
实例¶
nvidia-smi:
Thu Feb 29 19:54:59 2024
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05 Driver Version: 520.61.05 CUDA Version: 11.8 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... On | 00000000:00:09.0 Off | 0 |
| N/A 41C P0 37W / 300W | 4792MiB / 32768MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 7562 C python 884MiB |
| 0 N/A N/A 1425768 C ./main 836MiB |
| 0 N/A N/A 2854007 C python 1092MiB |
| 0 N/A N/A 3937597 C ...3/envs/btc_env/bin/python 1164MiB |
| 0 N/A N/A 4027652 C ...3/envs/btc_env/bin/python 808MiB |
+-----------------------------------------------------------------------------+
自动刷新:
nvidia-smi -l
watch -n 1 nvidia-smi