overhead - GPU Glossary 中文版

title: 什么是开销？

开销延迟是指未执行有用工作所花费的时间。

与在计算限制或内存限制下的性能瓶颈期间不同——那时 GPU 正在尽可能快地工作——由开销引起的延迟代表 GPU 在等待接收工作的时间。

开销通常来自 CPU 端的瓶颈，这些瓶颈阻止 GPU 足够快地接收工作。例如，每个内核启动的 CUDA API 调用开销大约增加 10 微秒。此外，像 PyTorch 或 TensorFlow 这样的框架需要时间决定启动哪个内核，这可能花费许多微秒。我们通常在这里使用术语"主机开销"，尽管它并非完全标准化。 CUDA Graphs 将多个设备端内核集合成一个主机端启动，是解决这些开销的常见方案。更多信息，请参阅 GTC 2025 上的《最大化并发和系统利用率的 CUDA 技术》演讲。

"内存开销"或"通信开销"是在 CPU 与 GPU 之间或 GPU 与 GPU 之间来回移动数据时产生的开销延迟。但当通信带宽成为限制因素时，通常最好将其视为一种内存限制的形式，其中"内存"分布在多台机器上。