title: 什么是 nvidia-smi?

这个命令行实用程序用于查询和管理由 NVML 管理库暴露的 GPU 状态。其输出(如下所示样本)对于 NVIDIA GPU 用户来说非常熟悉,甚至已经成为一种网络迷因

nvidia-smi 报告以下信息:

有关这些指标的详细信息,包括如何解读功耗和温度读数,请参阅 Modal 文档中的这个页面

nvidia-smi 还可以列出当前使用 GPU 的进程(-q--querypmon)。常见的管理任务包括设置持久模式(-pm)、计算模式(-c)、功耗限制(-pl)、应用/锁定时钟(-ac-lgc-lmc)以及执行 GPU 重置(-r)。

输出可以格式化为人类可读的文本或 XML(-x)。虽然 nvidia-smi 的文本输出格式不保证稳定,但底层的 NVML C 库 为工具开发提供了稳定的 API。

nvidia-smi 的文档可以在这里找到,官方 Python 绑定可以在这里找到。

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.08              驱动程序版本: 575.57.08      CUDA 版本: 12.9         |
|-----------------------------------------+------------------------+----------------------|
| GPU  名称                 持久化模式 | 总线ID          显示活动 | 易失性未纠正 ECC     |
| 风扇  温度  性能          功耗:使用/上限 |           内存使用情况 | GPU利用率  计算模式 |
|                                         |                        |              MIG 模式 |
|=========================================+========================+======================|
|   0  NVIDIA B200                    开启 |   00000000:51:00.0 关闭 |                    0 |
| N/A   27C    P0            136W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA B200                    开启 |   00000000:52:00.0 关闭 |                    0 |
| N/A   25C    P0            140W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA B200                    开启 |   00000000:62:00.0 关闭 |                    0 |
| N/A   27C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA B200                    开启 |   00000000:63:00.0 关闭 |                    0 |
| N/A   26C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA B200                    开启 |   00000000:75:00.0 关闭 |                    0 |
| N/A   27C    P0            139W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA B200                    开启 |   00000000:76:00.0 关闭 |                    0 |
| N/A   25C    P0            140W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA B200                    开启 |   00000000:86:00.0 关闭 |                    0 |
| N/A   27C    P0            142W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA B200                    开启 |   00000000:87:00.0 关闭 |                    0 |
| N/A   26C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      默认     |
|                                         |                        |              禁用     |
+-----------------------------------------+------------------------+----------------------+