Shaojun Wei — ISSCC & JSSC 知识库

ISSCC 2025Session 14AI / ML

Zhiheng Yue*, Xujiang Xiang*, Yang Wang, Ruiqi Guo, Huiming Han,

本文提出了一种全数据通路（Full-Datapath）的SRAM浮点计算存内（CIM）宏，针对复合AI（Compound AI）系统实现高效边缘部署。该宏能效达51.6 TFLOPs/W，接近稀疏性理论界限，且精度损失小于2-30，解决了传统大模型在边缘设备上部署的成本和尺寸问题。

▸提出全数据通路CIM架构，支持浮点运算，实现高能效边缘AI加速。

▸通过接近稀疏性界限的设计，在保持高精度的同时大幅提升能效至51.6 TFLOPs/W。

Shaojun Wei, Yang Hu, Shouyi Yin Tsinghua University, Beijin 51.6 TFLOPs/W, <2-30 Loss

ISSCC 2023Session 16Digital Processors28nm CMOS

Fengbin Tu, Yiqi Wang, Zihan Wu, Weiwei Wu, Leibo Liu, Yang Hu,

本文提出TensorCIM，一款基于28nm工艺的数字CIM张量处理器，用于加速推荐模型等超越神经网络的稀疏聚集和稀疏代数操作，通过MCM-CIM架构有效缓解数据移动瓶颈。

▸提出数字CIM架构，专门针对稀疏聚集(SpG)和稀疏代数(SpA)操作进行优化，实现高效稀疏张量处理。

▸采用多芯片模块(MCM)集成CIM，支持大规模稀疏计算，并实现3.7nJ/Gather的能效和8.3TFLOPS/W的FP32算力。

Shaojun Wei, Shouyi Yin Tsinghua University, Beijing, China

ISSCC 2023Session 16AI / ML28nm

Fengbin Tu, Zihan Wu, Yiqi Wang, Weiwei Wu, Leibo Liu, Yang Hu,

本文提出MulTCIM，一种基于28nm工艺的注意力-令牌-位混合稀疏数字存内计算加速器，用于高效处理多模态Transformer推理。通过利用多模态信号中token重要性的差异以及注意力稀疏性，实现了2.24µJ/Token的低能耗。

▸提出注意力-令牌-位三层混合稀疏策略，在注意力、令牌和位宽三个维度上动态跳过冗余计算，大幅降低能耗。

▸采用全数字存内计算架构，避免模拟CIM的精度和噪声问题，同时支持多模态Transformer中的跨模态注意力机制。

Shaojun Wei, Shouyi Yin Tsinghua University, Beijing, China 2.24µJ/Token