title: 什么是 nvidia-smi?
这个命令行实用程序用于查询和管理由 NVML 管理库暴露的 GPU 状态。其输出(如下所示样本)对于 NVIDIA GPU 用户来说非常熟悉,甚至已经成为一种网络迷因。
nvidia-smi 报告以下信息:
- GPU 身份信息,如显卡型号名称、UUID 和 PCI ID
- 内核执行时间和内存分配的实时利用率指标
- 实时功耗和温度信息
有关这些指标的详细信息,包括如何解读功耗和温度读数,请参阅 Modal 文档中的这个页面。
nvidia-smi 还可以列出当前使用 GPU 的进程(-q、--query、pmon)。常见的管理任务包括设置持久模式(-pm)、计算模式(-c)、功耗限制(-pl)、应用/锁定时钟(-ac、-lgc、-lmc)以及执行 GPU 重置(-r)。
输出可以格式化为人类可读的文本或 XML(-x)。虽然 nvidia-smi 的文本输出格式不保证稳定,但底层的 NVML C 库 为工具开发提供了稳定的 API。
nvidia-smi 的文档可以在这里找到,官方 Python 绑定可以在这里找到。
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.08 驱动程序版本: 575.57.08 CUDA 版本: 12.9 |
|-----------------------------------------+------------------------+----------------------|
| GPU 名称 持久化模式 | 总线ID 显示活动 | 易失性未纠正 ECC |
| 风扇 温度 性能 功耗:使用/上限 | 内存使用情况 | GPU利用率 计算模式 |
| | | MIG 模式 |
|=========================================+========================+======================|
| 0 NVIDIA B200 开启 | 00000000:51:00.0 关闭 | 0 |
| N/A 27C P0 136W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA B200 开启 | 00000000:52:00.0 关闭 | 0 |
| N/A 25C P0 140W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA B200 开启 | 00000000:62:00.0 关闭 | 0 |
| N/A 27C P0 138W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA B200 开启 | 00000000:63:00.0 关闭 | 0 |
| N/A 26C P0 138W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA B200 开启 | 00000000:75:00.0 关闭 | 0 |
| N/A 27C P0 139W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA B200 开启 | 00000000:76:00.0 关闭 | 0 |
| N/A 25C P0 140W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA B200 开启 | 00000000:86:00.0 关闭 | 0 |
| N/A 27C P0 142W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA B200 开启 | 00000000:87:00.0 关闭 | 0 |
| N/A 26C P0 138W / 1000W | 0MiB / 183359MiB | 0% 默认 |
| | | 禁用 |
+-----------------------------------------+------------------------+----------------------+