2021-06-10发表2023-02-16更新 Erial 7 分钟读完 (大约1092个字)cuda5直方图parallel histogramA simple parallel histogram algorithm阅读更多
2021-06-09发表2023-02-16更新 Erial 13 分钟读完 (大约2021个字)cuda4性能Warps and SIMD一个线程 block 由 32 个线程 warp 组成扭曲在多处理器上以物理方式并行执行 (SIMD) Warp 是调度单位阅读更多
2021-06-07发表2023-02-16更新 Erial 10 分钟读完 (大约1433个字)cuda2多维内核多维内核配置示例image-20210607161352581(C:\Users\Aerialith\AppData\Roaming\Typora\typora-user-images\image-20210607161352581.png 处理 2D 网格的图片C/C++ 中的行优先布局阅读更多
2019-12-07发表2023-02-16更新 Erial 10 分钟读完 (大约1536个字)cuda1CUDA 介绍CPU :面向延迟设计image-20210607010547778(C:\Users\Aerialith\AppData\Roaming\Typora\typora-user-images\image-20210607010547778.png ALU 减少操作延迟 Cache 将长延迟内存访问转换为短延迟缓存访问 控制模块 - 分支预测以减少分支延迟 - 数据转发以减少数据延迟阅读更多