CUDA 内核非常强大,因为它可以利用 GPU 上大量的 CUDA 核心帮助我们异步解决可分解问题。在这里,我们使用“线程”的概念来异步执行内核。实际上,除了内核执行之外,我们还有两个额外的步骤来解决整个问题。这两个步骤是从主机到设备的内存复制和从设备 ...