cuda6

SCAN

前缀和

image-20210608013044014

阅读更多

cuda5

直方图

parallel histogram

A simple parallel histogram algorithm

阅读更多

cuda4

性能

Warps and SIMD

一个线程 block 由 32 个线程 warp 组成
扭曲在多处理器上以物理方式并行执行 (SIMD)

Warp 是调度单位

阅读更多

cuda3

内存和数据局部性

示例 – 矩阵乘法

image-20210607204333797
阅读更多

cuda2

多维内核

多维内核配置

示例

image-20210607161352581(C:\Users\Aerialith\AppData\Roaming\Typora\typora-user-images\image-20210607161352581.png

处理 2D 网格的图片

C/C++ 中的行优先布局

阅读更多

cuda1

CUDA 介绍

CPU :面向延迟设计

image-20210607010547778(C:\Users\Aerialith\AppData\Roaming\Typora\typora-user-images\image-20210607010547778.png

  • ALU
    • 减少操作延迟
  • Cache
    • 将长延迟内存访问转换为短延迟缓存访问
  • 控制模块 - 分支预测以减少分支延迟 - 数据转发以减少数据延迟
阅读更多