nvidia-smi命令¶
示例:
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01 Driver Version: 535.183.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 Tesla V100-SXM2-32GB Off | 00000000:00:09.0 Off | 0 |
| N/A 38C P0 37W / 300W | 12670MiB / 32768MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
顶部信息
NVIDIA-SMI 535.183.01:
显示的是 NVIDIA 系统管理接口(nvidia-smi)的版本号。
这是 NVIDIA 提供的工具,用于管理和监控 GPU。
Driver Version: 535.183.01:
表示当前安装的 NVIDIA 驱动程序版本号。
CUDA Version: 12.2:
显示当前支持的 CUDA 版本。
CUDA 是 NVIDIA 提供的用于并行计算的工具包。
GPU 状态
GPU Name:
显示 GPU 的型号和配置。
在这里是 Tesla V100-SXM2-32GB,这是 NVIDIA 的一款高性能计算 GPU,拥有 32GB 的显存。
Persistence-M:
这表明 GPU 持久化模式(Persistence Mode)的状态。
Off 表示该模式关闭。
开启此模式可以保持 GPU 驱动在系统重启后不被卸载。
Bus-Id:
显示 GPU 在系统总线上的位置(在 PCIe 总线上的标识)。
这里 00000000:00:09.0 表示 GPU 的总线 ID。
Disp.A:
表示显示器活动状态。
Off 表示 GPU 没有连接到显示器或不用于显示任务。
Volatile Uncorr. ECC:
表示易失性非纠错(ECC)内存错误的数量。
0 表示没有检测到此类错误。
温度和功耗
Fan:
风扇状态。
N/A 表示不适用或没有风扇信息。
Tesla V100 可能没有风扇或其风扇速度不可用。
Temp:
当前 GPU 的温度。
这里是 38C,表示 GPU 温度为 38 摄氏度。
Perf:
显示 GPU 性能状态。
P0 表示 GPU 处于最高性能状态。
Pwr:Usage/Cap:
显示 GPU 当前功耗和最大功耗。
37W / 300W 表示当前功耗为 37 瓦特,最大功耗为 300 瓦特。
内存使用情况
Memory-Usage:
显示 GPU 内存的使用情况。
12670MiB / 32768MiB 表示 GPU 总共 32GB 内存中,已使用 12.67GB。
GPU-Util:
GPU 的使用率。
0% 表示 GPU 当前没有进行计算任务或完全空闲。
Compute M.:
计算模式。
Default 表示使用默认计算模式。
MIG M.:
显示多实例 GPU(MIG)模式的状态。
N/A 表示此 GPU 不支持 MIG 功能。
GPU 属性¶
查询 NVIDIA GPU 的 计算能力(Compute Capability) 的命令:
$ nvidia-smi --query-gpu=compute_cap --format=csv
compute_cap
8.9
计算能力的作用¶
GPU 的计算能力(Compute Capability)是 NVIDIA 用来标识 GPU 架构和支持的功能的一个重要指标。
不同的计算能力对应不同的 GPU 架构和功能支持,例如:
| 架构代号 | 架构名称 | 代表 GPU 型号 | Compute Capability | |------------------|------------------|-------------------------|---------------------| | Tesla | Tesla | GTX 200 系列 | 1.0 - 1.3 | | Fermi | Fermi | GTX 400/500 系列 | 2.0 - 2.1 | | Kepler | Kepler | GTX 600/700 | 3.0 - 3.7 | | Maxwell | Maxwell | GTX 750, 900 系列 | 5.0 - 5.3 | | Pascal | Pascal | GTX 10 系列 | 6.0 - 6.2 | | Volta | Volta | Tesla V100 | 7.0 | | Turing | Turing | RTX 20 系列,GTX 16 系列 | 7.5 | | Ampere | Ampere | RTX 30 系列,A100, L4 | 8.0 - 8.6 | | Hopper | Hopper | H100, H20 | 9.0 | | Ada Lovelace | Ada | RTX 40 系列(4090), L20 | 8.9 | | Blackwell (新) | Blackwell | B100 等 | 9.0+(待正式发布) |
查询所有 GPU 属性¶
查询所有 GPU 属性:
$ nvidia-smi --query-gpu=name,compute_cap,memory.total --format=csv
name, compute_cap, memory.total [MiB]
NVIDIA L20, 8.9, 46068 MiB
实例¶
nvidia-smi:
Thu Feb 29 19:54:59 2024
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05 Driver Version: 520.61.05 CUDA Version: 11.8 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... On | 00000000:00:09.0 Off | 0 |
| N/A 41C P0 37W / 300W | 4792MiB / 32768MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 7562 C python 884MiB |
| 0 N/A N/A 1425768 C ./main 836MiB |
| 0 N/A N/A 2854007 C python 1092MiB |
| 0 N/A N/A 3937597 C ...3/envs/btc_env/bin/python 1164MiB |
| 0 N/A N/A 4027652 C ...3/envs/btc_env/bin/python 808MiB |
+-----------------------------------------------------------------------------+
自动刷新:
nvidia-smi -l <sec> # 默认5s
nvidia-smi -l 1
watch -n 1 nvidia-smi