IT之家 2 月 1 日音信,现已公布 Blackwell GPU 架构白皮书,线路了 GeForce RTX 50 系列显卡的大宗本事细节,其中格外值得疑望的小数是 Blackwell 架构的一谈单精度 CUDA 中枢同期复旧 FP32 / INT32 数据,这点上记挂了九年前的 Pascal 架构。

▲Blackwell 架构 SM 盘算

▲Pascal 架构 SM 盘算
英伟达在 GeForce 10 \"Pascal\" 世代仍弃取单精度 CUDA 单位兼顾 FP32 / INT32 的盘算,而在 Volta 和 Turing 两代上换用了两组 1:1 比例的 CUDA 中枢辞别承担 INT32 和 FP32 的决策。

▲ Volta(左)、Turing(右)两代架构 SM 盘算
来到 Ampere 架构,英伟达则为每个 SM 流式处置器的四个处置块(IT之家注:Processing Block)之一提供了 1 组 16 个 FP32 / INT32 单位和 1 组 16 个纯 FP32 单位;而在 Ada GPU 上,这一盘算取得连续。

▲ Ampere(左)、Ada(右)两代架构 SM 盘算
Blackwell 架构上的斡旋 CUDA 使得每 SM 可能的 INT32 整数运算才调较 Ada 翻倍。不外在职何给定的时钟周期内,Blackwell 斡旋内核只不错 FP32 或 INT32 花样中的一种动手。
英伟达提到,Ada 架构 SM 是为范例着色器盘算和优化的,而 Blackwell SM 则是为神经着色器盘算和优化的。