← 返回 JSSC 论文列表
📄 下载 JSSC 原文 PDF
JSSC 2022第8期Digital Circuits28nm

DPU DAG Processing Unit for Irregular Graphs With Precision-Scalable Posit Arith

提出DPU处理器,高效执行不规则DAG,支持精度可调posit运算,显著提升性能与能效。
28nm CMOS, 0.23W, 538 GOPS/W
不规则DAG并行计算精度可调posit算术低功耗
创新点1:并行计算单元独立执行DAG子图(系统创新)。DPU采用多核架构设计,每个计算单元(CU)可独立处理DAG的不同子图,通过硬件级任务划分实现真正的并行化,解决了传统CPU/GPU因数据依赖导致的硬件利用率低下问题,实测速度提升达5.1-20.6倍。
创新点2:硬件支持的同步原语(电路创新)。开发了周期级精度的硬件同步机制,通过专用电路实现计算单元间的零延迟同步,相比软件同步方案减少90%以上同步开销,支持动态任务调度时的实时协调。
创新点3:精度可调的posit算术单元(方法创新)。提出可动态配置位宽的posit运算器,支持8-32bit精度自适应切换,相比传统浮点单元节省40%功耗,在概率机器学习等场景实现精度-能效比最优配置。
创新点4:全局分体式暂存器架构(系统创新)。采用多bank设计的共享存储结构,配合低延迟互连网络,实现计算单元间数据交换带宽达256GB/s,访存延迟降低至5个时钟周期。
Abstract
Computation in several real-world applications such as probabilistic machine learning, sparse linear algebra, and robotic navigation can be modeled as irregular directed acyclic graphs (DAGs). The irregular data dependencies in DAGs pose challenges to parallel execution on general-purpose CPUs and GPUs, resulting in severe under-utilization of the hardware. This article proposes DAG Processing Unit (DPU), a specialized processor designed for the efficient execution of irregular DAGs. The DPU is e