AI / ML — ISSCC & JSSC 知识库

ISSCC 2023Session 33AI / ML28nm

A 28nm 2Mb STT-MRAM Computing-in-Memory Macro with a Refined Bit-Cell and 22.4 – 41.5TOPS/W for AI Inference

Hao Cai1, Zhongjian Bian1, Yaoru Hou1, Yongliang Zhou1, Jia-le Cui1,

本文提出了一款基于28nm工艺的2Mb STT-MRAM存内计算宏，通过改进的位单元设计，解决了标准1T-1MTJ位单元无法满足二值神经网络CIM操作需求的问题，实现了22.4-41.5 TOPS/W的高能效AI推理。

▸提出了一种改进的STT-MRAM位单元，使其能够支持二值神经网络的存内计算操作。

▸设计了完整的28nm 2Mb CIM宏架构，实现了22.4-41.5 TOPS/W的能效，适用于资源受限的边缘AI设备。

Yanan Guo1, Xiaoyun Tian1, Bo Liu1, Xin Si1, Zhen Wang2, Jun 22.4-41.5 TOPS/W @ 2Mb

ISSCC 2023Session 33AI / ML

A 9Mb HZO-Based Embedded FeRAM with 1012-Cycle Endurance and 5/7ns Read/Write using ECC-Assisted Data Refresh and Offset-Canceled Sense Amplifier

Jianguo Yang1, Qing Luo1, Xiaoyong Xue2, Haijun Jiang3, Qiqiao Wu2,

该论文提出了一款基于HZO材料的9Mb嵌入式铁电存储器(FeRAM)，采用ECC辅助数据刷新和偏移技术，实现了10^12次循环的耐久性和5/7ns的读写速度。通过生成与温度相关的跟踪电压并动态调整写入电压，有效降低了ECC错误率，提升了存储器的可靠性和性能。

▸引入ECC辅助的数据刷新机制，结合偏移电压调整，显著提升了FeRAM的耐久性至10^12次循环。

▸提出动态写入电压生成电路，根据ECC错误检测结果调整写电压，在保证数据完整性的同时优化读写速度。

Zhongze Han1, Yue Cao3, Yongkang Han3, Chunmeng Dou1, Hangbi

ISSCC 2023Session 33AI / ML22nm

A 22nm 8Mb STT-MRAM Near-Memory-Computing Macro with 8b-Precision and 46.4-160.1TOPS/W for Edge-AI Devices

Yen-Cheng Chiu*1, Win-San Khwa*2, Chung-Yuan Li1, Fang-Ling Hsieh1,

该论文提出了一种基于22nm工艺的8Mb STT-MRAM近存计算宏，支持8位精度和46.4-160.1TOPS/W的能效，适用于边缘AI设备。通过非易失性存储器实现神经网络参数断电存储，并快速响应设备唤醒，解决了边缘AI低功耗和高能效需求。

▸首次在22nm工艺上实现8Mb STT-MRAM近存计算宏，支持8位精度计算。

▸能效范围达46.4-160.1TOPS/W，通过优化读写电路和计算架构实现高能效边缘AI推理。

46.4-160.1 TOPS/W

ISSCC 2023Session 33AI / ML16nm

A 16nm 32Mb Embedded STT-MRAM with a 6ns Read-Access

Time, a 1M-Cycle Write Endurance, 20-Year Retention at, 150°C and MTJ-OTP Solutions for Magnetic Immunity

该论文在16nm工艺上实现了32Mb嵌入式STT-MRAM，具有6ns读访问时间、1M次写耐久性和150°C下20年数据保持能力，并提出了MTJ-OTP解决方案，解决了汽车MCU对高可靠非易失性存储的需求。

▸在16nm先进工艺节点上集成32Mb嵌入式STT-MRAM，实现高密度存储。

▸达到6ns读访问速度，同时保持1M次写耐久和150°C下20年数据保持，满足汽车级可靠性要求。

6ns读访问，1M-cycle写耐久，20年保持@150°C

ISSCC 2023Session 32AI / ML

SciCNN: A 0-Shot-Retraining Patient-Independent Epilepsy-Tracking SoC

Chne-Wuen Tsai1,2, Rucheng Jiang1, Lian Zhang1,3, Miaolin Zhang1,4, Liuhao Wu1,

该论文提出了一款名为SciCNN的患者无关癫痫追踪SoC，实现了无需重新训练的零样本（0-shot）癫痫检测。解决了现有患者特异性癫痫检测SoC需要针对每个患者重新训练的问题，可适用于不同患者。

▸提出了一种患者无关的卷积神经网络（CNN）架构，无需针对新患者进行重新训练即可实现高精度癫痫检测。

▸设计了一款集成了信号处理、CNN加速器以及无线通信的低功耗SoC，适用于长期可穿戴监测。

Jiaqi Guo1, Zhongwei Yan1, Jerald Yoo1,2 National University

ISSCC 2023Session 29AI / ML7nm CMOS (N7) + 0.13µm Deep Trench Capacitor

Wafer-Level Stacking of High-Density Capacitors to Enhance the Performance of a Large Multicore Processor for Machine Learning Applications

Stephen Felix1, Shannon Morton2, Simon Stacey1, John Walsh1

本文提出通过晶圆级堆叠高密度电容（约750µF）与大型多核处理器晶圆融合，显著降低电源电压下冲和过冲，从而提升处理器性能。该方案采用TSMC N7 CMOS和0.13µm Deep Trench Capacitor技术，实现了822mm²的Colossus Mk2x芯片。

▸晶圆级堆叠高密度电容与处理器晶圆直接融合，无需额外封装步骤，有效改善电源完整性。

▸利用TSMC N7工艺和0.13µm深沟槽电容技术，在保持高性能的同时大幅降低电压波动。

ISSCC 2023Session 29AI / ML

Snap-SAT: A One-Shot Energy-Performance-Aware All-Digital Compute-in-Memory Solver for Large-Scale Hard Boolean Satisfiability Problems

Shanshan Xie, Mengtian Yang, S. Andrew Lanham, Yipeng Wang, Meizhi Wang,

本文提出Snap-SAT，一种基于全数字存内计算（CIM）的一次性求解器，用于加速大规模硬布尔可满足性（SAT）问题。该求解器通过能量性能感知设计，在单次操作中完成求解，显著降低延迟和能耗。

▸首次提出全数字存内计算架构用于SAT求解，实现一次性（one-shot）求解，无需迭代搜索。

▸引入能量性能感知优化机制，平衡求解速度与功耗，适用于大规模硬SAT实例。

ISSCC 2023Session 29AI / ML65nm CMOS

A 32.5mW Mixed-Signal Processing-in-Memory-Based k-SAT Solver in 65nm CMOS with 74.0% Solvability for 30-Variable 126-Clause 3-SAT Problems

Daehyun Kim, Nael Mizanur Rahman, Saibal Mukhopadhyay

该论文提出了一种基于混合信号处理存内计算（Processing-in-Memory）的k-SAT求解器，在65nm CMOS工艺中实现，功耗仅32.5mW。针对30变量126子句的k-SAT问题，该求解器达到了74.0%的求解率，显著优于此前16%的求解率水平，解决了传统硬件求解器对复杂问题求解率低的问题。

▸首次采用混合信号处理存内计算架构实现k-SAT求解器，将存储与计算融合以降低数据搬移开销。

▸在低功耗（32.5mW）条件下实现了74.0%的高求解率，针对30变量126子句的复杂问题显著超越先前设计。

Georgia Institute of Technology, Atlanta, GA 求解率74.0% (30变量126子句), 功耗32.5mW

ISSCC 2023Session 22AI / ML12nm

A 12nm 18.1TFLOPs/W Sparse Transformer Processor with

Entropy-Based Early Exit, Mixed-Precision Predication and, Fine-Grained Power Management

本文提出了一款基于12nm工艺的稀疏Transformer处理器，实现了18.1 TFLOPs/W的高能效。通过引入熵值提前退出机制、混合精度预测和细粒度电源管理，有效降低了大型语言模型推理的计算和能耗开销。

▸提出熵值提前退出机制，根据输入不确定性动态终止计算，减少不必要的运算。

▸采用混合精度预测，在保证精度的前提下对部分操作使用低精度计算以提升能效。

18.1 TFLOPs/W

ISSCC 2023Session 22AI / ML28nm CMOS

ANP-I: A 28nm 1.5pJ/SOP Asynchronous Spiking Neural Network Processor Enabling Sub-0.1µJ/Sample On-Chip Learning for Edge-AI Applications

Jilin Zhang1, Dexuan Huo1, Jian Zhang1, Chunqi Qian1, Qi Liu1, Liyang Pan1,

该论文提出了一款28nm工艺的异步脉冲神经网络处理器ANP-I，实现了1.5pJ/SOP的超低能耗推理和低于0.1µJ/样本的片上学习，解决了边缘AI应用中片上训练能耗过高的问题。

▸采用异步电路设计，消除全局时钟，降低动态功耗，实现高能效脉冲神经网络推理。

▸提出低能耗片上学习机制，通过优化突触权重更新计算，使训练能耗降至亚0.1µJ/样本。

Zhihua Wang1, Ning Qiao2, Kea-Tiong Tang3, Hong Chen1 Tsingh 1.5pJ/SOP（每突触操作能耗），片上学习能耗<0.1µJ/样本

ISSCC 2023Session 22AI / ML

C-DNN: A 24.5-85.8TOPS/W Complementary-Deep-NeuralNetwork Processor with Heterogeneous CNN/SNN Core Architecture and Forward-Gradient-Based Sparsity Generation

Sangyeob Kim, Soyeon Kim, Seongyon Hong, Sangjin Kim, Donghyeon Han, Hoi-Jun Yoo

提出一种异构CNN/SNN核心架构的深度神经网络处理器C-DNN，通过互补利用CNN和SNN的优势，实现24.5-85.8 TOPS/W的高能效。解决了SNN能量随层间尖峰稀疏性波动的问题，同时保持高准确率。

▸首次提出互补深度神经网络（C-DNN）处理器，在同一芯片上集成CNN和SNN异构核心，根据层间尖峰稀疏性动态选择计算模式。

▸通过事件驱动与帧驱动混合计算，优化能量效率，实现24.5-85.8 TOPS/W的峰值能效。

Korea Advanced Institute of Science and Technology, Daejeon, 24.5-85.8 TOPS/W

ISSCC 2023Session 22AI / ML

A 127.8TOPS/W Arbitrarily Quantized 1-to-8b ScalablePrecision Accelerator for General-Purpose Deep Learning

with Reduction of Storage, Logic and Latency Waste

该论文提出了一种支持任意量化精度（1-8比特）的可扩展精度加速器，用于通用深度学习推理，能效达127.8 TOPS/W。它解决了不同网络层在稀疏性和精度要求上的差异问题，通过减少存储、逻辑和延迟浪费实现高效处理。

▸提出任意量化精度（1-8比特）的可扩展架构，适配不同网络层的精度需求

▸实现127.8 TOPS/W的高能效，通过最大化利用稀疏性和量化减少计算冗余

Seunghyun Moon1, Han-Gyeol Mun1, Hyunwoo Son2, Jae-Yoon Sim1 127.8TOPS/W

ISSCC 2023Session 2AI / ML

VISTA: A 704mW 4K-UHD CNN Processor for Video and Image Spatial/Temporal Interpolation Acceleration

Kai-Ping Lin, Jia-Han Liu, Jyun-Yi Wu, Hong-Chuan Liao, Chao-Tsung Huang

提出VISTA处理器，用于加速视频和图像的空间/时间插值CNN。该处理器功耗704mW，支持4K-UHD分辨率，解决了高吞吐视频CNN推理的三个设计挑战。

▸设计了针对视频CNN中时空插值的高效硬件架构，支持VSR和VFI等多种应用。

▸通过特定的数据流和计算调度，实现了704mW低功耗下4K-UHD实时处理。

National Tsing Hua University, Hsinchu, Taiwan

ISSCC 2023Session 16AI / ML18nm FD-SOI

A 40-310TOPS/W SRAM-Based All-Digital Up to 4b In-Memory Computing Multi-Tiled NN Accelerator in FD-SOI 18nm for Deep-Learning Edge Applications

Giuseppe Desoli*1, Nitin Chawla*2, Thomas Boesch*3, Manuj Ayodhyawasi*2,

提出了一种基于SRAM的全数字存内计算多瓦片神经网络加速器，采用18nm FD-SOI工艺，支持最高4位精度，能效达40-310 TOPS/W。解决了传统SRAM存内计算模拟/混合信号设计中的精度和功耗问题，通过全数字架构实现高吞吐和高能效。

▸全数字SRAM存内计算架构，无需ADC/DAC，避免模拟不匹配和精度损失。

▸多瓦片（multi-tiled）设计，支持灵活扩展和高效数据流，适用于深度神经网络。

40-310 TOPS/W @ 4b precision

ISSCC 2023Session 16AI / ML

A Nonvolatile AI-Edge Processor with 4MB SLC-MLC Hybrid-Mode ReRAM Compute-in-Memory Macro and 51.4-251TOPS/W

Wei-Hsing Huang*1, Tai-Hao Wen*1,2, Je-Min Hung*1, Win-San Khwa*2,

该论文提出了一种非易失性AI边缘处理器，集成了4MB SLC-MLC混合模式ReRAM计算内存宏，实现了51.4-251TOPS/W的高能效。解决了低功耗AI边缘设备在断电模式下需要快速唤醒和低能耗响应的问题。

▸提出SLC-MLC混合模式ReRAM计算内存宏，兼顾存储密度和计算精度。

▸实现非易失性AI边缘处理器，支持快速唤醒和低能耗事件触发计算。

51.4-251TOPS/W

ISSCC 2023Session 16AI / ML28nm

A 28nm 53.8TOPS/W 8b Sparse Transformer Accelerator with In-Memory Butterfly Zero Skipper for Unstructured-Pruned NN and CIM-Based Local-Attention-Reusable Engine

Shiwei Liu1, Peizhe Li1, Jinshan Zhang1, Yunzhengmao Wang1, Haozhe Zhu1,

该论文提出了一款基于28nm工艺的稀疏Transformer加速器，通过内存内蝶形零跳过单元实现非结构化剪枝神经网络的高效计算，解决了Transformer中自注意力机制计算量大且稀疏性利用不足的问题。

▸提出内存内蝶形零跳过单元，在计算过程中跳过非结构化剪枝产生的零值，减少无效计算和能耗。

▸设计稀疏感知的数据流和架构，支持8位精度计算，实现53.8TOPS/W的高能效比。

Wenning Jiang1, Shan Tang2, Chixiao Chen1,3, Qi Liu1, Ming L 53.8TOPS/W

ISSCC 2023Session 16AI / ML28nm

MulTCIM: A 28nm 2.24µJ/Token Attention-Token-Bit Hybrid Sparse Digital CIM-Based Accelerator for Multimodal Transformers

Fengbin Tu, Zihan Wu, Yiqi Wang, Weiwei Wu, Leibo Liu, Yang Hu,

本文提出MulTCIM，一种基于28nm工艺的注意力-令牌-位混合稀疏数字存内计算加速器，用于高效处理多模态Transformer推理。通过利用多模态信号中token重要性的差异以及注意力稀疏性，实现了2.24µJ/Token的低能耗。

▸提出注意力-令牌-位三层混合稀疏策略，在注意力、令牌和位宽三个维度上动态跳过冗余计算，大幅降低能耗。

▸采用全数字存内计算架构，避免模拟CIM的精度和噪声问题，同时支持多模态Transformer中的跨模态注意力机制。

Shaojun Wei, Shouyi Yin Tsinghua University, Beijing, China 2.24µJ/Token

ISSCC 2023Session 13AI / ML

Crystalline Oxide Semiconductor-based 3D Bank Memory System for Endpoint Artificial Intelligence with Multiple Neural Networks Facilitating Context Switching and Power Gating the maximum frequency. Energy for inference (MNIST) using only the CPU memory and the core is 1681.97µJ, whereas energy for inference using the ACC is 0.19µJ. The inference time is reduced from 3.55s to 485µs. Therefore, our ACC enables inference according to the frame rate of imaging data (e.g., 60fps and 16ms).

Yuto Yakubo1, Kazuma Furutani1, Kouhei Toyotaka1, Haruki Katagiri1,

该论文提出了一种基于晶体氧化物半导体的3D存储体系统，用于端点人工智能，通过堆叠OS存储器和CMOS电路实现上下文切换和功耗降低。与传统的SRAM芯片相比，该方案在推理任务中显著降低了待机功耗。

▸采用晶体氧化物半导体（OS）存储器堆叠在CMOS电路上，形成3D存储体架构，实现非易失性存储和低功耗。

▸通过上下文切换和功率门控（PG）技术，在推理任务中实现比传统SRAM芯片更低的待机功耗。

ISSCC 2022Session 34AI / ML

Side-Channel Attack Counteraction via Machine LearningTargeted Power Compensation for Post-Silicon HW Security Patching

Qiang Fang*1, Longyang Lin*1,2, Yao Zu Wong1, Hui Zhang1, Massimo Alioto1

该论文提出了一种基于机器学习的目标性功率补偿方法，用于后硅硬件安全补丁，以对抗侧信道攻击。通过动态调整功率消耗来掩盖密码操作中的信息泄露，从而在不重新设计芯片的情况下提升安全性。

▸提出了一种后硅硬件安全补丁方法，利用机器学习预测并补偿功率波动，无需修改原有设计。

▸实现了对侧信道攻击的实时防御，通过目标性功率补偿降低信息泄露风险。

National University of Singapore, Singapore, Singapore

ISSCC 2022Session 33AI / ML

DSPU: A 281.6mW Real-Time Depth Signal Processing Unit for Deep Learning-Based Dense RGB-D Data Acquisition with Depth Fusion and 3D Bounding Box Extraction in Mobile Platforms

Dongseok Im, Gwangtae Park, Zhiyong Li, Junha Ryu, Sanghoon Kang,

该论文提出了一款名为DSPU的深度信号处理单元，在281.6mW功耗下实现实时密集RGB-D数据采集与深度学习处理，解决了传统ToF传感器功耗高且在极端反射率区域深度提取失败的问题。

▸提出低功耗实时深度信号处理单元，支持深度学习驱动的密集RGB-D数据采集，功耗仅281.6mW。

▸针对高反射率等极端场景优化深度提取，避免导航或AR交互失败。

Donghyeon Han, Jinsu Lee, Hoi-Jun Yoo KAIST, Daejeon, Korea 281.6mW功耗，>30fps实时处理

ISSCC 2022Session 29AI / ML28nm CMOS

ReckOn: A 28nm Sub-mm2 Task-Agnostic Spiking Recurrent Neural Network Processor Enabling On-Chip Learning over Second-Long Timescales

Charlotte Frenkel, Giacomo Indiveri

该论文提出了一种名为ReckOn的28nm亚平方毫米任务无关脉冲递归神经网络处理器，支持片上学习，解决了边缘设备在数据分布变化下的自适应问题。通过创新的学习算法和硬件设计，实现了在长时间尺度上的在线学习，同时满足严格的功耗和面积约束。

▸提出了一种任务无关的脉冲递归神经网络处理器架构，支持片上学习，无需外部干预即可适应数据分布变化。

▸开发了与时间深度无关的学习算法，避免了传统训练算法中内存需求随数据时间深度线性增长的问题。

University of Zurich and ETH Zurich, Zurich, Switzerland

ISSCC 2022Session 29AI / ML28nm CMOS

A 28nm 15.59µJ/Token Full-Digital Bitline-Transpose CIM-Based Sparse Transformer Accelerator with Pipeline/Parallel Reconfigurable Modes

Fengbin Tu1,2, Zihan Wu1, Yiqi Wang1, Ling Liang2, Liu Liu2, Yufei Ding2,

该论文提出了一种基于全数字位线转置计算-in-memory（CIM）的稀疏Transformer加速器，采用28nm工艺，实现了15.59µJ/Token的高能效。针对Transformer注意力机制中的动态矩阵乘法和稀疏性问题，通过流水线/并行恢复技术减少了数据移动和计算开销。

▸提出全数字位线转置（Bitline-Transpose）CIM架构，有效支持Transformer中的动态矩阵乘法（如QKT和A‘V），相比传统CIM提升能效。

▸利用稀疏性进行流水线/并行恢复（Pipeline/Parallel Reco），减少冗余计算和数据传输，进一步降低延迟和能耗。

Leibo Liu1, Shaojun Wei1, Yuan Xie2, Shouyi Yin1 Tsinghua Un 15.59µJ/Token

ISSCC 2022Session 29AI / ML28nm CMOS

A 28nm 27.5TOPS/W Approximate-Computing-Based Transformer Processor with Asymptotic Sparsity Speculating and Out-of-Order Computing

Yang Wang1, Yubin Qin1, Dazheng Deng1, Jingchuan Wei1, Yang Zhou1,

该论文提出了一款基于近似计算的Transformer处理器，采用渐进式稀疏推测和乱序执行技术，在28nm工艺下实现了27.5TOPS/W的能效。通过BESA PE（位级近似计算）降低MAC能量40.8%，在GPT-2情感分析任务中达到89.6%准确率，仅比精确计算低0.4%。

▸提出近似计算方法，利用6位MSB级联OR/AND生成多位0信号以禁用压缩器，降低能耗。

▸采用渐进稀疏推测和乱序执行机制，提高Transformer推理效率。

Yuanqi Fan1, Tianbao Chen2, Hao Sun1, Leibo Liu1, Shaojun We 27.5TOPS/W

ISSCC 2022Session 22AI / ML

An 82nW 0.53pJ/SOP Clock-Free Spiking Neural Network with 40µs Latency for AIoT Wake-Up Functions Using Ultimate-Event-Driven Bionic Architecture and Computing-in-Memory Technique

Ying Liu*1, Zhixuan Wang*1,2, Wei He1, Linxiao Shen1, Yihan Zhang1,

该论文提出了一种基于终极事件驱动（UED）的无时钟脉冲神经网络（SNN）芯片，用于AIoT设备的唤醒功能。通过异步脉冲传播和处理，实现了82nW的超低功耗、0.53pJ/SOP的高能效和40µs的低延迟，解决了传统AIoT设备在随机稀疏事件下的高功耗和延迟问题。

▸提出终极事件驱动（UED）架构，模仿人脑异步脉冲处理，实现无时钟操作，大幅降低动态功耗。

▸实现82nW功耗和40µs延迟的SNN芯片，适用于AIoT设备的事件驱动唤醒场景。

ISSCC 2022Session 22AI / ML

A 108nW 0.8mm2 Analog Voice Activity Detector (VAD) Featuring a Time-Domain CNN as a Programmable Feature Extractor and a Sparsity-Aware Computational Scheme in 28nm CMOS

Feifei Chen1, Ka-Fai Un1, Wei-Han Yu1, Pui-In Mak1, Rui P. Martins1,2

该论文提出了一种108nW、0.8mm2的模拟语音活动检测器（VAD），采用时域卷积神经网络（CNN）作为可编程特征提取器，解决了传统VAD因全带宽高分辨率数据转换导致功耗过高的问题，实现了超低功耗始终在线语音检测。

▸提出模拟域时域CNN特征提取器，避免数字域高功耗数据转换，实现极低功耗语音活动检测。

▸采用可编程架构，使特征提取器能灵活适应不同语音环境，提升检测精度。

University of Macau, Macau, China 108nW @ 0.8mm2

ISSCC 2022Session 19AI / ML

A 28GHz Compact 3-Way Transformer-Based Parallel-Series Doherty Power Amplifier with 20.4%/14.2% PAE at 6-/12-dB Power Back-Off and 25.5dBm PSAT in 55nm Bulk CMOS

Zonglin Ma1,2, Kaixue Ma1, Keping Wang1, Fanyi Meng1

该论文提出了一种28GHz紧凑型3路变压器基并行-串行Doherty功率放大器，解决了5G毫米波通信中功率放大器在深度功率回退时效率严重下降的问题。通过创新的3路Doherty结构，在6dB和12dB功率回退处分别实现了20.4%和14.2%的功率附加效率。

▸首次提出3路变压器基并行-串行Doherty架构，实现紧凑布局和深回退效率增强。

▸通过变压器耦合实现并行-串行合路，在保持高增益的同时显著提升6dB和12dB回退点的PAE。

Tianjin University, Tianjin, China PAE=20.4% @6dB PBO, PAE=14.2% @12dB PBO

ISSCC 2022Session 16AI / ML40nm

A 40nm 64kb 26.56TOPS/W 2.37Mb/mm2 RRAM Binary/Compute-in-Memory Macro with 4.23× Improvement in Density and >75% Use of Sensing Dynamic Range

Samuel D. Spetalnick1, Muya Chang1, Brian Crafton1, Win-San Khwa2,

该论文提出了一种基于RRAM的二进制存内计算宏，在40nm工艺下实现了64kb容量、26.56TOPS/W能效和2.37Mb/mm2密度，相比之前工作密度提升4.23倍且利用率超过75%，有效解决了RRAM存内计算在面积受限集成电路中的实用性问题。

▸通过电路和架构优化大幅提升RRAM存内计算宏的面积密度，实现4.23倍密度改进。

▸采用二进制计算方案并保持高利用率（>75%），在有限面积内获得高能效和计算能力。

Yu-Der Chih3, Meng-Fan Chang2, Arijit Raychowdhury1 Georgia 26.56TOPS/W, 2.37Mb/mm2, 4.23× density improvement, >75% utilization

ISSCC 2022Session 16AI / ML28nm CMOS

DIMC: 2219TOPS/W 2569F2/b Digital In-Memory Computing Macro in 28nm Based on Approximate Arithmetic Hardware

Dewei Wang1, Chuan-Tung Lin1, Gregory K. Chen2, Phil Knag2,

该论文提出了一种基于近似算术硬件的全数字内存计算宏（DIMC），用于解决传统模拟混合信号内存计算易受工艺、电压、温度变化影响的问题。在28nm工艺下实现了2219TOPS/W的能效和2569F2/b的面积效率，显著提升了卷积神经网络的推理精度和可靠性。

▸首次提出基于近似算术硬件的全数字内存计算架构，避免了模拟电路对PVT变化的敏感性，提升了计算精度。

▸设计了高能效的数字计算单元，在28nm工艺下实现了2219TOPS/W的能效和2569F2/b的面积效率，优于同期模拟混合信号方案。

2219TOPS/W, 2569F2/b

ISSCC 2022Session 15AI / ML

A 0.8V Intelligent Vision Sensor with Tiny Convolutional Neural Network and Programmable Weights Using Mixed-Mode Processing-in-Sensor Technique for Image Classification

Tzu-Hsiang Hsu*, Guan-Cheng Chen*, Yi-Ren Chen, Chung-Chuan Lo,

该论文提出了一种0.8V低电压智能视觉传感器，集成了小型卷积神经网络和可编程权重，采用混合模式处理，旨在解决传统成像器加AI加速器方案在低功耗边缘设备中实时推理时的功耗和延迟问题。

▸提出在传感器内集成小型卷积神经网络和可编程权重，实现近传感器处理，减少原始图像数据传输带来的功耗和延迟。

▸采用混合模式（Mixed-Mode）处理架构，在低电压（0.8V）下实现高效计算，适用于低功耗边缘AI应用。

Ren-Shuo Liu, Meng-Fan Chang, Kea-Tiong Tang, Chih-Cheng Hsi

ISSCC 2022Session 15AI / ML

ARCHON: A 332.7TOPS/W 5b Variation-Tolerant Analog CNN Processor Featuring Analog Neuronal Computation Unit and Analog Memory

Jin-O Seo1, Mingoo Seok2, SeongHwan Cho1

提出一种名为ARCHON的5比特变化容忍模拟CNN处理器，通过模拟神经元计算单元解决传统模拟MAC频繁使用ADC/DAC的高能耗问题。实现了332.7TOPS/W的极高能效。

▸设计了模拟神经元计算单元，减少中间特征图在模拟与数字域之间的频繁转换。

▸采用变化容忍技术，提高模拟电路在工艺变化下的可靠性。

KAIST, Daejeon, Korea; 2Columbia University, New York, NY 332.7TOPS/W @ 5b

ISSCC 2022Session 15AI / ML

DIANA: An End-to-End Energy-Efficient DIgital and ANAlog Hybrid Neural Network SoC

Kodai Ueyoshi*1, Ioannis A. Papistas*2, Pouya Houshmand1,

提出了一种端到端能量高效的数字和模拟混合神经网络SoC（DIANA），用于边缘设备上的高效矩阵向量乘法。通过结合数字和模拟计算的优势，解决了传统单一架构在能效和精度之间的权衡问题。

▸数字与模拟混合架构，在保持精度的同时大幅提升能效。

▸端到端能量优化，从算法到电路层面协同设计。

ISSCC 2022Session 15AI / ML28nm

A 28nm 29.2TFLOPS/W BF16 and 36.5TOPS/W INT8 Reconfigurable Digital CIM Processor with Unified FP/INT Pipeline and Bitwise In-Memory Booth Multiplication for Cloud Deep Learning Acceleration

Fengbin Tu1,2, Yiqi Wang1, Zihan Wu1, Ling Liang2, Yufei Ding2, Bongjin Kim2,

该论文提出了一款28nm工艺的可重构数字计算存储（CIM）处理器，支持BF16和INT8精度，采用统一的浮点/整数流水线架构，实现了29.2 TFLOPS/W和36.5 TOPS/W的高能效，解决了模拟CIM精度受限的问题。

▸提出数字CIM架构，避免模拟CIM的噪声和精度问题

▸设计统一的FP/INT流水线，支持混合精度计算

Leibo Liu1, Shaojun Wei1, Yuan Xie2, Shouyi Yin1 Tsinghua Un 29.2TFLOPS/W BF16 and 36.5TOPS/W INT8

ISSCC 2022Session 15AI / ML

COMB-MCM: Computing-on-Memory-Boundary NN Processor with Bipolar Bitwise Sparsity Optimization for Scalable Multi-Chiplet-Module Edge Machine Learning

Haozhe Zhu*1, Bo Jiao*1, Jinshan Zhang*1, Xinru Jia1, Yunzhengmao Wang1,

提出了一种基于计算在存储边界（COMB）的神经网络处理器，通过双极位稀疏性优化实现高效计算，并支持可扩展多芯片架构，解决了传统CIM宏中权重数据访问的瓶颈问题。

▸提出COMB架构，将计算逻辑置于存储边界，减少数据搬运能耗。

▸引入双极位稀疏性优化（Bipolar Bitwise Sparsity），进一步提升计算效率和能效。

ISSCC 2022Session 15AI / ML65nm CMOS

A 65nm Systolic Neural CPU Processor for Combined Deep Learning and General-Purpose Computing with 95% PE

Utilization, High Data Locality and Enhanced End-to-End, Performance

该论文提出了一种65nm工艺的脉动神经CPU处理器，用于结合深度学习与通用计算，通过提高PE利用率和数据局部性来增强端到端性能，解决了深度学习任务中预处理、数据对齐和内存移动导致的执行时间瓶颈问题。

▸提出了一种脉动神经CPU架构，实现深度学习加速与通用计算的高效协同，提升PE利用率至95%。

▸通过高数据局部性设计和优化的数据流管理，减少内存访问开销，增强端到端性能。

Yuhao Ju, Jie Gu Northwestern University, Evanston, IL Despi

ISSCC 2022Session 15AI / ML4nm

A Multi-Mode 8K-MAC HW-Utilization-Aware Neural Processing Unit with a Unified Multi-Precision Datapath in 4nm Flagship Mobile SoC

Jun-Seok Park1, Changsoo Park1, Suknam Kwon1, Hyeong-Seok Kim1,

本文提出了一种多模式8K-MAC硬件利用率感知的神经处理单元，采用统一多精度数据路径，在4nm旗舰工艺上实现。该设计旨在满足实时应用中不同性能需求，包括高精度计算、多种深度学习层类型的高效处理以及极低功耗的始终在线运行。

▸提出多模式8K-MAC架构，支持不同精度和计算模式，提高硬件利用率。

▸采用统一多精度数据路径，灵活适配多种深度学习层类型，提升能效。

ISSCC 2022Session 11AI / ML28nm

A 28nm 1Mb Time-Domain Computing-in-Memory 6T-SRAM Macro with a 6.6ns Latency, 1241GOPS and 37.01TOPS/W for 8b-MAC Operations for Edge-AI Devices

Ping-Chun Wu*1, Jian-Wei Su*2, Yen-Lin Chung1, Li-Yang Hong1,

该论文提出了一种基于28nm工艺的1Mb时域计算内存（Time-Domain Computing-in-Memory）6T-SRAM宏，用于边缘AI设备的8位乘累加（MAC）操作。该宏实现了6.6ns的延迟、1241GOPS的吞吐量和37.01TOPS/W的能效，解决了传统SRAM-CIM能效和速度的平衡问题。

▸采用时域计算方式代替传统模拟或数字域计算，提升能效并降低对模拟电路精度的依赖。

▸使用6T-SRAM单元实现内存计算，相比标准单元或模拟电路更节省面积，适合大规模集成。

6.6ns latency, 1241GOPS, 37.01TOPS/W for 8b-MAC

ISSCC 2022Session 11AI / ML28nm

A 1.041-Mb/mm2 27.38-TOPS/W Signed-INT8 Dynamic-LogicBased ADC-less SRAM Compute-In-Memory Macro in 28nm with Reconfigurable Bitwise Operation for AI and Embedded Applications

Bonan Yan1, Jeng-Long Hsu2, Pang-Cheng Yu2, Chia-Chi Lee2, Yaojun Zhang3,

本文提出了一种基于动态逻辑的无ADC SRAM存内计算宏，在28nm工艺下实现了1.041 Mb/mm²的高密度和27.38 TOPS/W的高能效，支持有符号INT8向量-矩阵乘法。该设计通过去除传统ADC和静态逻辑，显著减少了计算电路面积，适用于深度神经网络推理等高效能嵌入式系统。

▸采用动态逻辑替代传统的ADC或静态逻辑来实现存内计算，大幅降低宏单元面积。

▸实现了高密度（1.041 Mb/mm²）和高能效（27.38 TOPS/W）的SRAM CIM宏，支持有符号INT8运算。

Wenshuo Yue1, Guoqiang Mei3, Yuchao Yang1, Yue Yang2, Hai Li 27.38 TOPS/W @ 1.041 Mb/mm²

ISSCC 2022Session 11AI / ML5nm

A 5-nm 254-TOPS/W 221-TOPS/mm2 Fully-Digital Computingin-Memory Macro Supporting Wide-Range Dynamic-VoltageFrequency Scaling and Simultaneous MAC and Write Operations

Hidehiro Fujiwara1, Haruki Mori1, Wei-Chang Zhao1, Mei-Chen Chuang1,

该论文提出了一种5nm全数字计算存储一体（CIM）宏，解决了模拟CIM精度不足的问题，实现了254 TOPS/W的能效和221 TOPS/mm2的面积效率，并支持宽范围动态电压频率缩放。

▸采用全数字CIM架构，避免了模拟CIM的精度损失，同时保持高能效。

▸支持宽范围动态电压频率缩放（DVFS），适应不同工作负载。

254 TOPS/W, 221 TOPS/mm2

ISSCC 2022Session 11AI / ML

Single-Mode CMOS 6T-SRAM Macros with Keeper-LoadingFree Peripherals and Row-Separate Dynamic Body Bias Achieving 2.53fW/bit Leakage for AIoT Sensing Platforms

Yihan Zhang1, Chang Xue1, Xiao Wang1, Tianyi Liu1, Jihang Gao1, Peiyu Chen1,

本文设计了一种单模式CMOS 6T-SRAM宏单元，采用无keeper负载的外围电路和行分离动态体偏置技术，实现了超低待机功耗，适用于微型化无线物联网传感器节点。该设计有效降低了SRAM在待机模式下的漏电流，从而延长电池寿命。

▸提出无keeper负载的外围电路设计，消除了传统keeper电路的漏电路径，显著降低静态功耗。

▸采用行分离动态体偏置技术，根据行选择信号动态调整NMOS和PMOS的体偏压，进一步优化待机功耗与性能。

Jinguang Liu2, Linan Sun2, Linxiao Shen1, Jiayoon Ru1, Le Ye 2.53fW/bit (待机功耗)

ISSCC 2022Session 11AI / ML

An 8-Mb DC-Current-Free Binary-to-8b Precision ReRAM Nonvolatile Computing-in-Memory Macro using Time-SpaceReadout with 1286.4 - 21.6TOPS/W for Edge-AI Devices

Je-Min Hung1, Yen-Hsiang Huang1, Sheng-Po Huang1, Fu-Chun Chang1,

本文提出了一种8Mb无直流电流的ReRAM非易失性计算存储宏，采用时间-空间读出方法，支持二进制到8位精度的乘积累加操作。该设计解决了边缘AI设备中高精度、低功耗非易失性计算的需求。

▸首次实现无直流电流的ReRAM计算存储宏，降低了静态功耗

▸提出时间-空间读出技术，支持二进制到8位精度的灵活配置，兼顾精度与能效

ISSCC 2022Session 11AI / ML22nm

A 22nm 4Mb STT-MRAM Data-Encrypted Near-Memory Computation Macro with a 192GB/s Read-and-Decryption Bandwidth and 25.1-55.1TOPS/W 8b MAC for AI Operations

Yen-Cheng Chiu*1, Chia-Sheng Yang*1, Shih-Hsin Teng1, Hsiao-Yu Huang1,

本文提出了一款基于22nm工艺的4Mb STT-MRAM数据加密近存计算宏，实现了192GB/s的读取和解密带宽，解决了AI边缘设备中非易失性存储与数据加密结合的计算效率问题。

▸首次在STT-MRAM中集成数据加密功能，实现近存计算，提升安全性。

▸通过优化读取路径和解密电路，达到192GB/s的高带宽，兼顾能效（25.1fJ/b）。

192GB/s读取解密带宽，25.1fJ/b能效

ISSCC 2021Session 9AI / ML

A 1/2.3inch 12.3Mpixel with On-Chip 4.97TOPS/W CNN Processor Back-Illuminated Stacked CMOS Image Sensor

Ryoji Eki1, Satoshi Yamada2, Hiroyuki Ozawa1, Hitoshi Kai1, Kazuyuki Okuike2,

该论文提出了一款集成片上CNN处理器的背照式堆叠CMOS图像传感器，像素为12.3Mp，尺寸为1/2.3英寸，能效达4.97TOPS/W。它解决了边缘AI设备中云计算带来的延迟、通信成本和隐私问题。

▸将CNN处理器直接集成在图像传感器芯片上，实现边缘端实时AI处理。

▸采用背照式堆叠结构，在保持高像素密度的同时提升感光性能和集成度。

4.97TOPS/W, 12.3Mpixel, 1/2.3英寸

ISSCC 2021Session 9AI / ML5nm

A 6K-MAC Feature-Map-Sparsity-Aware Neural Processing Unit in 5nm Flagship Mobile SoC

Jun-Seok Park1, Jun-Woo Jang2, Heonsoo Lee1, Dongwoo Lee1, Sehwan Lee2,

该论文提出了一款6K-MAC的特征图稀疏性感知神经处理单元（NPU），集成于5nm旗舰移动SoC中，旨在解决移动设备上实时机器学习应用的计算资源、功耗和内存带宽限制问题。通过利用特征图稀疏性，实现了高效的计算加速。

▸提出特征图稀疏性感知架构，利用激活值稀疏性跳过无效计算，降低功耗和延迟。

▸实现6K MAC（乘累加）单元规模，在5nm工艺下平衡性能与面积效率。

ISSCC 2021Session 9AI / ML40nm

A 40nm 4.81TFLOPS/W 8b Floating-Point Training Processor for Non-Sparse Neural Networks Using Shared Exponent Bias and 24-Way Fused Multiply-Add Tree

Jeongwoo Park*, Sunwoo Lee*, Dongsuk Jeon

针对非稀疏神经网络训练需求，提出一款采用40nm工艺的8位浮点训练处理器，通过共享指数偏置技术实现4.81TFLOPS/W高能效，解决了现代非稀疏激活函数下传统稀疏加速方法失效的问题。

▸提出专为非稀疏神经网络设计的8位浮点训练处理器架构

▸采用共享指数偏置技术减少数据表示冗余，提升能效

Seoul National University, Seoul, Korea 4.81TFLOPS/W

ISSCC 2021Session 9AI / ML28nm CMOS

A 28nm 12.1TOPS/W Dual-Mode CNN Processor Using Effective-Weight-Based Convolution and Error-Compensation-Based Prediction

Huiyu Mo1, Wenping Zhu1, Wenjing Hu1, Guangbin Wang1, Qiang Li2, Ang Li1,

针对量化CNN推理中的重复权重乘法、ReLU导致的不必要MAC运算以及残差块频繁片外访问三个问题，提出了一种名为QNAP的高能效量化网络加速处理器。该处理器采用有效权重卷积（EWC）和错误补偿预测等技术，实现了12.1TOPS/W的能效。

▸提出有效权重卷积（EWC），通过选举非零有效权重避免重复乘法运算。

▸采用错误补偿预测机制，进一步减少不必要的MAC计算或优化数据流。

Shouyi Yin1, Shaojun Wei1, Leibo Liu1 Institute of Microelec

ISSCC 2021Session 6AI / MLCMOS（具体节点未给出，推测为先进CMOS工艺）

A 1.75dB-NF 25mW 5GHz Transformer-Based NoiseCancelling CMOS Receiver Front-End

Kaituo Yang1, Chirn Chye Boon1, Guangyin Feng2, Chenyang Li1, Zhe Liu1,

该论文提出了一种基于变压器的噪声消除CMOS接收机前端，工作在5GHz频段，实现了1.75dB的极低噪声系数和25mW的低功耗，解决了传统LNA-first架构中Gm-cell功耗过大的问题。通过变压器反馈实现噪声抵消，在保持低噪声的同时优化了功耗和带宽。

▸采用变压器反馈结构实现噪声消除，替代传统有源Gm-cell，降低功耗。

▸在5GHz频段以25mW功耗实现1.75dB的NF，兼顾低噪声与低功耗。

Ting Guo1, Xiang Yi3, Yangtao Dong1, Ao Zhou1, Xiaoying Wang 1.75dB NF @ 5GHz, 25mW功耗

ISSCC 2021Session 33AI / ML

A 1.25W 46.5%-Peak-Efficiency Transformer-in-Package Isolated DC-DC Converter Using Glass-Based Fan-Out Wafer-Level Packaging Achieving 50mW/mm2 Power Density polyimide layers with a dielectric breakdown strength of >400V/μm are laminated among 3 RDLs to form isolation barriers, providing better than 5kV isolation rating. Consequently, the transformer achieves a coupling coefficient of 0.8, enabling over 1W power delivery.

Dongfang Pan1, Guolong Li1, Fangting Miao1, Biao Deng1, Junying Wei2,

该论文提出一种基于玻璃基扇出晶圆级封装的隔离DC-DC转换器，在变压器封装内实现1.25W功率和46.5%峰值效率。针对传统AC耦合结构在高输入电压下栅驱动过压的问题，采用耐20V的LDMOS晶体管并改进耦合电路。

▸采用玻璃基扇出晶圆级封装集成变压器，减小体积并提升隔离性能

▸改进AC耦合振荡器结构，解决宽输入电压范围下LDMOS栅驱动电压超限问题

1.25W输出功率，46.5%峰值效率

ISSCC 2021Session 26AI / ML

A Watt-Level Quadrature Switched/Floated-Capacitor Power Amplifier with Back-Off Efficiency Enhancement in Complex Domain Using Reconfigurable Self-Coupling Canceling Transformer

Bingzheng Yang, Huizhen Jenny Qian, Xun Luo

本文提出了一种瓦特级正交开关/浮空电容功率放大器，通过复域调制技术显著提升了功率回退效率，解决了传统功率放大器在低功率输出时效率低下的问题。该设计采用正交架构简化系统复杂度，并实现高数据率传输。

▸首次在复域中利用开关/浮空电容结构实现功率放大器的高效回退操作，无需额外的CORDIC和相位调制器。

▸通过IQ单元共享技术提高了峰值效率，同时保持正交发射机的简单架构和高数据率特性。

University of Electronic Science and Technology of China, Ch

ISSCC 2021Session 23AI / ML

270-to-300GHz Double-Balanced Parametric Upconverter Using Asymmetric MOS Varactors and a Power-SplittingTransformer Hybrid in 65nm CMOS

Zhiyu Chen1, Wooyeol Choi2, Kenneth O1

本文提出了一种工作在270-300GHz的双平衡参量上变频器，采用非对称MOS变容管和功率分配变压器混合结构，旨在解决太赫兹通信发射机中输出1dB压缩点低和带宽不足的问题。

▸首次采用非对称MOS变容管实现双平衡参量上变频，提升线性度和功率处理能力。

▸提出功率分配变压器混合结构，实现宽频带阻抗匹配和信号平衡转换。

University of Texas, Dallas, TX

ISSCC 2021Session 20AI / ML65nm CMOS

A 60GHz 186.5dBc/Hz FoM Quad-Core Fundamental VCO Using Circular Triple-Coupled Transformer with No Mode Ambiguity in 65nm CMOS

Haikun Jia, Wei Deng, Pingda Guan, Zhihua Wang, Baoyong Chi

本文提出了一种60GHz四核基波压控振荡器（VCO），利用环形三耦合变压器实现多核耦合，并消除了模式模糊问题，在65nm CMOS工艺中达到了186.5dBc/Hz的优值（FoM），满足了5G通信对毫米波本振低相位噪声的严格要求。

▸提出环形三耦合变压器拓扑，实现四核VCO的紧凑耦合与高效功率合成。

▸通过独特的变压器设计消除了多核振荡器中的模式模糊问题，确保唯一稳定的振荡模式。

Tsinghua University, Beijing, China 186.5dBc/Hz FoM @ 60GHz

← 上一页 · 第 3/5 页 · 共 231 篇 · 下一页 →