title: 什么是开销?
开销延迟是指未执行有用工作所花费的时间。
与在计算限制或内存限制下的性能瓶颈期间不同——那时 GPU 正在尽可能快地工作——由开销引起的延迟代表 GPU 在等待接收工作的时间。
开销通常来自 CPU 端的瓶颈,这些瓶颈阻止 GPU 足够快地接收工作。例如,每个内核启动的 CUDA API 调用开销大约增加 10 微秒。此外,像 PyTorch 或 TensorFlow 这样的框架需要时间决定启动哪个内核,这可能花费许多微秒。我们通常在这里使用术语"主机开销",尽管它并非完全标准化。 CUDA Graphs 将多个设备端内核集合成一个主机端启动,是解决这些开销的常见方案。更多信息,请参阅 GTC 2025 上的《最大化并发和系统利用率的 CUDA 技术》演讲。
"内存开销"或"通信开销"是在 CPU 与 GPU 之间或 GPU 与 GPU 之间来回移动数据时产生的开销延迟。但当通信带宽成为限制因素时,通常最好将其视为一种内存限制的形式,其中"内存"分布在多台机器上。