按照CUDA的执行模型,grid中的各个block会被分配到GPU的各个SM中执行。下面我们给出一些建议,如何确定合适的Grid和block尺寸。在设计时,应该优先考虑block的尺寸,而grid的尺寸一般来说越大越好。 在Tesla架构GPU的每个SM中,至少有6个active warp才能有效地隐藏流水 ...