AI / ML — ISSCC & JSSC 知识库

ISSCC 2025Session 14AI / ML28nm

A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-Mode-Transpose Digital 6T-SRAM CIM Macro for Floating-Point Edge Training and Inference connection using the 3rd-metal layer and connect the corresponding diagonal in the 4th layer; the row connection is in the 5th layer. This method circumvents the need for numerous MAC circuits and read ports as is the case for previous T-CIM works [7,8], resulting in a reduction in area and power consumption.

Yiyang Yuan1,2, Bingxin Zhang1,2, Yiming Yang3, Yishan Luo1,2, Qirui Chen3,

本文提出了一种28nm工艺下的精确/近似双模式转置数字6T-SRAM存算一体宏单元，支持FP8、BF16、INT4和INT8等多种数据格式，实现了192.3 TFLOPS/W的高能效，旨在解决边缘训练中浮点运算的能效瓶颈。通过引入FP8新型浮点数据格式，相比BF16提升了训练效率。

▸提出精确/近似双模式转置数字6T-SRAM存算一体架构，兼顾精度与能效。

▸支持FP8、BF16、INT4、INT8多种数据格式，特别是FP8新型浮点格式，提升训练效率。

192.3 TFLOPS/W

ISSCC 2025Session 14AI / ML

A 51.6TFLOPs/W Full-Datapath CIM Macro Approaching Sparsity Bound and <2-30 Loss for Compound AI

Zhiheng Yue*, Xujiang Xiang*, Yang Wang, Ruiqi Guo, Huiming Han,

本文提出了一种全数据通路（Full-Datapath）的SRAM浮点计算存内（CIM）宏，针对复合AI（Compound AI）系统实现高效边缘部署。该宏能效达51.6 TFLOPs/W，接近稀疏性理论界限，且精度损失小于2-30，解决了传统大模型在边缘设备上部署的成本和尺寸问题。

▸提出全数据通路CIM架构，支持浮点运算，实现高能效边缘AI加速。

▸通过接近稀疏性界限的设计，在保持高精度的同时大幅提升能效至51.6 TFLOPs/W。

Shaojun Wei, Yang Hu, Shouyi Yin Tsinghua University, Beijin 51.6 TFLOPs/W, <2-30 Loss

ISSCC 2025Session 14AI / ML28nm

A 28nm 17.83-to-62.84TFLOPS/W Broadcast-Alignment Floating-Point CIM Macro with Non-Two’s-Complement MAC for CNNs and Transformers

Xing Wang*1,2, Tianhui Jiao*1, Yi Yang1, Shaochen Li1, Dongqi Li1, An Guo1,

本文提出了一种基于广播对齐的浮点存内计算宏，支持非二进制补码MAC运算，在28nm工艺上实现了17.83至62.84 TFLOPS/W的能效，适用于高精度CNN推理与训练。

▸提出广播对齐浮点存内计算架构，减少浮点运算中的对齐开销

▸采用非二进制补码MAC运算，降低计算复杂度和功耗

17.83-62.84 TFLOPS/W

ISSCC 2025Session 14AI / ML16nm

A 16nm 216kb, 188.4TOPS/W and 133.5TFLOPS/W Microscaling Multi-Mode Gain-Cell CIM Macro Edge-AI Devices loss of accuracy. In HV mode, the M2-IPU aligns INM based on both ∆PDE and ∆PDSS, with extra shifting in INM from ∆PDSS, which increases INM sparsity, further enhancing EEF. In phase 2 (Ph2), the OUT-PRO processes the activation function of the M2-CIM outputs and

generates INs for the next layer. In phase 3 (Ph3), the M2-IPU converts FP INs of the, subsequent layer to MX format. No

本文提出一种基于16nm工艺的216kb多模式显微缩放增益单元计算存储一体化（CIM）宏，用于边缘AI设备。该宏通过创新的显微缩放和混合模式操作，在保持精度的情况下实现了188.4TOPS/W和133.5TFLOPS/W的高能效。

▸提出了一种多模式显微缩放（Microscaling）技术，在CIM宏中支持多种数值精度和操作模式，兼顾能效与精度。

▸采用增益单元（Gain-Cell）结构，结合高效的预充电和转换电路（如PAH-ADT），实现低功耗、高吞吐的模拟计算。

188.4 TOPS/W 和 133.5 TFLOPS/W

ISSCC 2025Session 14AI / ML22nm

A 22nm 104.5TOPS/W µ-NMC-∆-IMC Heterogeneous STT-MRAM CIM Macro for Noise-Tolerant Bayesian Neural Networks

De-Qi You*1, Win-San Khwa*2, Bo Zhang3, Fang-Yi Chen1, Andrew Lee1,

该论文提出了一种基于22nm工艺的异构STT-MRAM计算存储宏，采用µ-NMC-∆-IMC架构，实现了104.5TOPS/W的高能效，专门用于抗噪声贝叶斯神经网络，解决了边缘AI设备中图像识别应用的能效和噪声容忍问题。

▸首次将异构STT-MRAM与µ-NMC-∆-IMC架构结合，实现高能效计算存储一体化。

▸针对贝叶斯神经网络的噪声容忍特性，优化了CIM宏的设计，提升了推理精度。

104.5TOPS/W

ISSCC 2025Session 13AI / ML

An 8.62μW 75dB-DRSoC End-to-End Spoken-LanguageUnderstanding SoC with Channel-Level AGC and Temporal-Sparsity-Aware Streaming-Mode RNN

Sheng Zhou1, Zixiao Li1, Tobi Delbruck1, Kwantae Kim2, Shih-Chii Liu1

该论文提出了一款端到端口语理解SoC，功耗仅8.62μW，动态范围达75dB，集成了通道级自动增益控制和时间稀疏性感知处理，解决了传统ADC+DSP方案中模拟前端和数字特征提取器功耗过高的问题。

▸提出通道级自动增益控制（AGC）技术，动态适应不同输入信号幅度，提升动态范围。

▸引入时间稀疏性感知处理，利用语音信号的稀疏特性降低计算功耗。

University of Zurich and ETH Zurich, Zurich, Switzerland 8.62μW功耗，75dB动态范围

ISSCC 2025Session 13AI / ML

A 0.22mm2 161nW Noise-Robust Voice-Activity Detection Using Information-Aware Data Compression and Neuromorphic Spatial-Temporal Feature Extraction

Ying Liu*1, Jie Li*1, Qining Zhang*1, Tianhao Zhao2, Chenhao Shi1, Ninghui Shang1,

University, Hangzhou, China 3 Nano Core Chip Electronic Technology, Hangzhou, China 1 *Equally Credited Authors (ECAs) Nowadays, voice activation detection (VAD), typically consisting of the feature e

Peiyu Chen2, Xiaohuan Ge3, Yufei Ma1, Linxiao Shen1, Zhixuan

ISSCC 2024Session 6AI / ML

A 0.35V 0.367TOPS/W Image Sensor with 3-Layer Optical-Electronic Hybrid Convolutional Neural Network

Xuecheng Wang*, Zheng Huang*, Tianyi Liu, Wanxin Shi, Hongwei Chen, Milin Zhang

本文提出了一种0.35V供电、能效为0.367TOPS/W的图像传感器，集成了三层光学-电子混合卷积神经网络。该设计通过像素级和阵列级特征提取，解决了传统图像传感器与云处理或片上AI处理器之间的功耗和数据传输延迟问题。

▸提出光学-电子混合卷积神经网络架构，在传感器层面实现三层卷积计算，减少数据搬运功耗。

▸在0.35V超低电压下工作，实现0.367TOPS/W的高能效，同时保持图像处理能力。

Tsinghua University, Beijing, China *Equally Credited Author 0.35V供电，0.367TOPS/W能效

ISSCC 2024Session 34AI / ML14nm FinFET

A Flash-SRAM-ADC-Fused Plastic Computing-in-Memory Macro for Learning in Neural Networks in a Standard 14nm FinFET Process

Linfang Wang1,2, Weizeng Li1,2, Zhidao Zhou1,2, Hanghang Gao1,2, Zhi Li1,2,

该论文提出了一种融合Flash、SRAM和ADC的塑性计算存储宏（CIM），用于神经网络学习，解决了边缘AI设备在低功耗、高实时性推理的同时需要具备在线学习能力的问题。该宏在标准14nm FinFET工艺中实现，支持塑性权重更新以适应动态环境。

▸首次将Flash、SRAM和ADC融合在单个计算存储宏中，实现塑性计算存储架构，支持神经网络在线学习。

▸采用14nm FinFET工艺，在保持高能效的同时实现了可塑性权重更新机制，适用于边缘AI设备。

ISSCC 2024Session 34AI / ML22nm

A 22nm 16Mb Floating-Point ReRAM Compute-in-Memory Macro with 31.2TFLOPS/W for AI Edge Devices

Tai-Hao Wen*1, Hung-Hsi Hsu*1,2, Win-San Khwa*2, Wei-Hsing Huang1,

本文提出了一款基于ReRAM的16Mb浮点存内计算宏，在22nm工艺下实现了31.2TFLOPS/W的能效，旨在满足AI边缘设备对高精度推理（如FP16/BF16）和高能效、低待机功耗的需求。该宏通过创新的电路和架构设计，解决了传统存内计算在浮点精度和能效之间的权衡问题。

▸首次在22nm工艺下实现16Mb容量的浮点ReRAM存内计算宏，支持FP16/BF16精度。

▸通过优化的模拟计算电路和数字接口，实现了31.2TFLOPS/W的极高能效，显著优于传统数字加速器。

31.2TFLOPS/W

ISSCC 2024Session 34AI / ML28nm

A 28nm 2.4Mb/mm2 6.9 - 16.3TOPS/mm2 eDRAM-LUT-Based Digital-Computing-in-Memory Macro with In-Memory Encoding and Refreshing

Yifan He1, Shupei Fan1, Xuan Li1, Luchang Lei1, Wenbin Jia1, Chen Tang1,

该论文提出了一种基于eDRAM-LUT的数字存内计算宏，在28nm工艺下实现了2.4Mb/mm2的存储密度和6.9-16.3TOPS/mm2的计算效率。通过引入内存编码与刷新技术，解决了传统数字存内计算宏在密度和效率上的限制。

▸提出使用eDRAM-LUT结构实现数字存内计算，兼具高密度与高效能

▸设计了在内存中编码与刷新技术，克服eDRAM的刷新开销并提升计算可靠性

2.4Mb/mm2存储密度，6.9-16.3TOPS/mm2计算效率

ISSCC 2024Session 34AI / ML28nm

A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC

Yiyang Yuan1,2, Yiming Yang3, Xinghua Wang3, Xiaoran Li3, Cailian Ma1,2,

本文提出了一种基于混合域外积（Hybrid-Domain Outer-Product）的浮点SRAM存算一体宏，采用对数位表示（Logarithm Bit）以提升计算精度与能效。在28nm工艺下实现了72.12 TFLOPS/W的峰值能效，解决了边缘AI应用中浮点运算能效低、精度不足的问题。

▸提出混合域外积计算架构，融合对数域与线性域优势，在保持高精度的同时显著降低功耗。

▸首次在SRAM CIM中实现全浮点外积运算，避免了传统整数CIM的精度损失和量化开销。

72.12 TFLOPS/W

ISSCC 2024Session 34AI / ML

A 818-4094TOPS/W Capacitor-Reconﬁgured CIM Macro for Uniﬁed Acceleration of CNNs and Transformers Kentaro Yoshioka

Keio University, Yokohama, Japan

该论文提出了一种电容重构的存内计算（CIM）宏，能够统一加速CNN和Transformer两种不同精度需求的神经网络架构。通过重构电容阵列，实现了818-4094 TOPS/W的宽能效范围，适应不同计算精度要求。

▸提出电容重构的CIM宏架构，通过动态调整电容阵列配置，在单一宏中同时支持CNN的低精度和Transformer的高精度计算。

▸实现了818-4094 TOPS/W的宽能效范围，覆盖从低精度到高精度的统一加速，解决了不同神经网络架构对计算精度和能效的差异化需求。

818-4094 TOPS/W

ISSCC 2024Session 34AI / ML3nm

A 3nm, 32.5TOPS/W, 55.0TOPS/mm2 and 3.78Mb/mm2 Fully-Digital Compute-in-Memory Macro Supporting INT12 × INT12 with a Parallel-MAC Architecture and Foundry 6T-SRAM Bit Cell

Hidehiro Fujiwara1, Haruki Mori1, Wei-Chang Zhao1, Kinshuk Khare1,

本文在3nm工艺下实现了一款完全数字式存内计算宏，支持INT12×INT12乘法累加操作，通过并行MAC方案提升了吞吐量并降低了能耗，同时分析了数据模式依赖性。

▸采用完全数字式存内计算架构，避免模拟电路的非理想性，提高能效和可靠性。

▸引入并行MAC方案，在提高吞吐量的同时显著降低能量消耗。

32.5TOPS/W, 55.0TOPS/mm2, 3.78Mb/mm2

ISSCC 2024Session 34AI / ML22nm CMOS

A 22nm 64kb Lightning-Like Hybrid Computing-in-Memory Macro with a Compressed Adder Tree and Analog-Storage Quantizers for Transformer and CNNs

An Guo1, Xi Chen1, Fangyuan Dong1, Jinwu Chen1, Zhihang Yuan2,3, Xing Hu3,

本文提出了一款基于22nm CMOS工艺的64kb混合计算内存宏单元，采用压缩加法树和模拟存储量化器技术，以提升神经网络中MAC运算的能效。该设计通过混合结构在SRAM中实现高效的计算存储一体化，显著降低了功耗。

▸创新点1：提出压缩加法树结构，减少计算中的冗余操作，提升MAC运算效率。

▸创新点2：采用模拟存储量化器，实现高能效的模拟-数字混合计算。

ISSCC 2024Session 34AI / ML16nm CMOS

A 16nm 96Kb Integer/Floating-Point Dual-Mode-Gain-CellComputing-in-Memory Macro Achieving 73.3-163.3TOPS/W and 33.2-91.2TFLOPS/W for AI-Edge Devices

Win-San Khwa*1, Ping-Chun Wu*2, Jui-Jen Wu1, Jian-Wei Su2,3, Ho-Yu Chen2,

该论文提出了一种采用16nm工艺的96Kb整数/浮点双模式增益单元计算存储宏（CIM），解决了先进AI边缘芯片对计算灵活性和高能效的需求。该宏支持整数和浮点双模式运算，实现了73.3-163.3 TOPS/W的能效。

▸提出双模式增益单元（Gain-Cell）计算存储宏，同时支持整数和浮点运算，增强了计算灵活性。

▸通过优化存储单元和计算路径，在16nm工艺下实现了高能效的CIM设计，适用于复杂的神经网络推理。

73.3-163.3 TOPS/W; 33.2-91.2 (推测TFLOPS/W)

ISSCC 2024Session 34AI / ML28nm CMOS

A 28nm 83.23TFLOPS/W POSIT-Based Compute-in-Memory Macro for High-Accuracy AI Applications and denotes early 01 or 10 change. It uses XOR and a leading-one detector if RA/RB with different signs. BRPU reduces the regime processing energy by 68%.

Yang Wang1, Xiaolong Yang1, Yubin Qin1, Zhiren Zhao1, Ruiqi Guo1,

本文提出了一种基于POSIT数据格式的存算一体宏单元，采用28nm CMOS工艺，实现了83.23TFLOPS/W的高能效，适用于高精度AI应用。通过CPCS架构和4b计算单元的多模式设计，解决了传统存算一体在精度和利用率上的不足。

▸首次在存算一体宏中采用POSIT数值格式，相比传统浮点或定点格式，在保证高精度的同时提升了计算能效。

▸提出CPCS（Critical-Path Computing Structure）架构，通过将48b行分为12个4b计算单元，并支持三种工作模式，显著提高了阵列利用率。

83.23TFLOPS/W

ISSCC 2024Session 33AI / ML

A Miniature Neural Interface Implant with a 95% Charging Efﬁciency Optical Stimulator and an 81.9dB SNDR ΔΣM-Based Recording Frontend

Linran Zhao1, Wei Shi2, Yan Gong3, Xiang Liu3, Wen Li3, Yaoyao Jia1

该论文提出了一种微型神经接口植入体，集成了具有95%充电效率的光学刺激器和基于ΔΣ调制的记录器，解决了微型化植入体在支持高功耗光学刺激时的功率接收限制问题。

▸实现了95%充电效率的光学刺激器，显著提升了微型植入体的功率传输效率。

▸采用ΔΣ调制器实现了81.9dB SNDR的记录性能，在微型化条件下保持了高精度信号采集。

University of Texas, Austin, TX 81.9dB SNDR, 95% charging efficiency

ISSCC 2024Session 33AI / ML

A Two-Electrode Bio-Impedance Readout IC with ComplexDomain Noise-Correlated Baseline Cancellation Supporting Sinusoidal Excitation

Song-I Cheon*1, Haidam Choi*1, Gichan Yun1, Sein Oh1, Ji-Hoon Suh1,

该论文提出了一种采用复域噪声相关基线消除技术的两电极生物阻抗读出IC，解决了传统两电极配置中电极阻抗和电流发生器噪声引起的基线过大问题，支持正弦波激励。

▸采用复域噪声相关基线消除技术，同时抵消阻抗实部和虚部的基线成分，有效抑制噪声。

▸集成高精度电流发生器，支持正弦波激励，适用于可穿戴阻抗监测。

Sohmyung Ha2, Minkyu Je1 Korea Advanced Institute of Science

ISSCC 2024Session 33AI / ML

An Adhesive Interposer-Based Reconﬁgurable Multi-Sensor Patch Interface with On-Chip Application Tunable Time-Domain Feature Extraction

Jeonghoon Cho*, You Jang Pyeon*, Junyeong Yeom*, Hyunjoong Kim*,

本文提出了一种基于粘附性中间层的可重构多传感器贴片接口，集成了微尺度结构以实现舒适的压力式重构，能够根据不同应用需求轻松附着或拆卸传感器组件，解决了异构多传感器贴片设备的适应性难题。

▸提出了基于粘附性中间层的可重构贴片概念，利用集成微结构实现传感器组件的按需附着与拆卸。

▸支持片上应用可调谐的时域特征提取，增强了多传感器接口的场景适应性。

ISSCC 2024Session 33AI / ML

A Millimetric Batteryless Biosensing and Stimulating Implant with Magnetoelectric Power Transfer and 0.9pJ/b PWM Backscatter

Zhanghao Yu*, Huan-Cheng Liao*, Fatima Alrashdan, Ziyuan Wen, Yiwei Zou,

该论文提出了一种毫米级无电池生物传感与刺激植入体，采用磁电功率传输技术实现安全无线供电，并利用0.9pJ/b的超低功耗PWM反向散射进行数据通信，解决了传统植入体体积大、需要电池以及无线供电效率低的问题。

▸采用磁电功率传输（MEPT）技术，实现毫米级植入体的高效无线能量传输，避免了电磁辐射安全隐患。

▸实现0.9pJ/b的PWM反向散射通信，在极低功耗下完成数据回传，适用于微型植入体的长期监测。

0.9pJ/b PWM backscatter efficiency

ISSCC 2024Session 33AI / ML

Closed-Loop 100-Channel Highly-Scalable Retinal Implant with 1.02μW Analog ED-Based Adaptive-Threshold Spike Detection and Poisson-Coded Temporally Distributed Optogenetic Stimulation

Tayebeh Youseﬁ, Georg Zoidl, Hossein Kassiri

该论文提出了一种用于视网膜植入的闭环100通道高度可扩展系统，集成了基于模拟能量检测的自适应阈值尖峰检测电路，功耗仅为1.02μW，旨在解决视网膜退化患者视觉恢复中的刺激效率与功耗问题。

▸提出了一种低功耗模拟能量检测器，实现自适应阈值尖峰检测，显著降低系统功耗。

▸设计了高度可扩展的100通道闭环架构，支持子视网膜和上视网膜两种植入方式。

York University, Toronto, Canada 1.02μW功耗（尖峰检测部分）

ISSCC 2024Session 33AI / ML

A Multi-Loop Neuromodulation Chipset Network with Frequency-Interleaving Front-End and Explainable AI for Memory Studies in Freely Behaving Monkeys

Yuhan Hou1, Yi Zhu1, Xiao Wu1, Yinfei Li1, Timothy Lucas2, Andrew Richardson3, Xilin Liu1

本文提出一种用于记忆研究的多环路神经调节芯片组网络，采用频率交叉前端和可解释AI，旨在通过电刺激海马体增强记忆来治疗阿尔茨海默病。该芯片组网络实现了多通道协调刺激与实时神经信号处理，为脑机接口和神经疾病治疗提供了新方案。

▸提出频率交叉前端架构，支持多频段神经信号同时采集和刺激，提高干扰抑制和信号保真度。

▸集成可解释AI模块，实时分析神经活动模式并优化刺激参数，增强治疗可解释性和适应性。

University of Toronto, Toronto, Canada Ohio State University

ISSCC 2024Session 33AI / ML

MiBMI: A 192/512-Channel 2.46mm2 Miniaturized Brain-Machine Interface Chipset Enabling 31-Class Brain-to-Text Conversion Through Distinctive Neural Codes

Mohammad Ali Shaeri1,2, Uisub Shin1,2,3, Amitabh Yadav1,2,

该论文提出了一款名为MiBMI的微型化脑机接口芯片组，支持192/512通道，面积仅2.46mm²，能够实现31类脑到文本的转换。解决了传统脑机接口系统体积大、通道数有限的问题，为便携式高精度脑机接口应用提供了芯片级解决方案。

▸首次实现192/512通道的微型化脑机接口芯片组，面积仅2.46mm²，显著缩小系统体积。

▸支持31类脑到文本转换，结合递归神经网络解码器，实现高精度手写意图预测。

Riccardo Caramellino4, Gregor Rainer1,4, Mahsa Shoaran1,2 EP 2.46mm²芯片面积，192/512通道，31类分类

ISSCC 2024Session 33AI / ML

A Sub-1µJ/class Headset-Integrated Mind Imagery and Control SoC for VR/MR Applications with Teacher-Student CNN and General-Purpose Instruction Set Architecture

Zhiwei Zhong*, Yijie Wei*, Lance Christopher Go, Jie Gu

该论文提出了一款头戴式集成的心像与控制SoC，用于VR/MR应用，采用教师-学生CNN架构实现极低功耗的脑信号解码，每次分类能耗低于1微焦耳。解决了现有VR头显依赖传统摇杆或摄像头手势控制的局限，实现了基于思维想象的直接交互。

▸集成教师-学生CNN架构，实现高能效的脑信号分类，降低计算功耗。

▸将心像（mind imagery）解码功能集成到头戴设备SoC中，实现低延迟、低功耗的脑机接口。

Northwestern University, Evanston, IL Sub-1µJ/class (每次分类能耗<1µJ)

ISSCC 2024Session 33AI / ML

A Hybrid Recording System with 10kHz-BW 630mVPP 84.6dB-SNDR 173.3dB-FOMSNDR and 5kHz-BW 114dB-DR for Simultaneous ExG and Biocurrent Acquisition

Taeryoung Seol, Geunha Kim, Sehwan Lee, Samhwan Kim, Dongwook Kim,

该论文提出一种混合记录系统，可同时采集ExG（如ENG、ECG）和生物电流（化学、PPG等）信号。在10kHz带宽下实现84.6dB SNDR和173.3dB FoMSNDR，在5kHz带宽下实现114dB动态范围，解决了低功耗高精度多模生物信号记录的需求。

▸提出混合架构，同时支持ExG和生物电流信号的高精度记录

▸实现630mVpp的大输入范围同时保持低噪声，达到84.6dB SNDR

84.6dB SNDR @ 10kHz BW, 114dB DR @ 5kHz BW, 173.3dB FoMSNDR

ISSCC 2024Session 33AI / ML

A 2.7ps-ToF-Resolution and 12.5mW Frequency-domain NIRS Readout IC with Dynamic Light Sensing Frontend and Cross-Coupling-Free Inter-Stabilized Data Converter

Zhouchen Ma1, Yuxiang Lin1, Cheng Chen1, Xiang’ao Qi1, Yongfu Li1,

提出了一种频域近红外光谱读出集成电路，通过动态光传感前端和交叉耦合技术实现了2.7ps飞行时间分辨率和12.5mW的低功耗。解决了传统连续波NIRS系统只能记录光强、无法分离吸收和散射系数的问题，实现了绝对代谢物浓度的量化。

▸采用动态光传感前端，实现高灵敏度光检测并降低功耗

▸引入交叉耦合技术，提升飞行时间分辨率至2.7ps

Kea-Tiong Tang2, Fa Wang3, Tianhong Zhang4, Guoxing Wang1, J 2.7ps ToF分辨率, 12.5mW功耗

ISSCC 2024Session 33AI / ML

A High-Accuracy and Energy-Efﬁcient Zero-Shot-Retraining Seizure-Detection Processor with Hybrid-Feature-Driven Adaptive Processing and Learning-Based Adaptive Channel Selection

Jiahao Liu1, Xiao Liu1, Xu Wang1, Ziyi Xie1, Zirui Zhong1, Jiajing Fan1, Hui Qiu1,

本文提出了一种高精度、高能效的零样本重训练癫痫检测处理器，通过混合特征驱动自适应机制解决了传统方法需要大量患者数据的问题，实现了无需患者历史数据即可准确检测癫痫发作。

▸提出零样本重训练方法，无需患者历史数据即可实现高精度癫痫检测，大幅降低数据收集成本。

▸采用混合特征驱动自适应机制，动态调整特征提取和分类策略，在保持高准确率的同时提升能效。

ISSCC 2024Session 32AI / ML

An Ultra-Compact 28GHz Doherty Power Ampliﬁer with an Asymmetrically-Coupled-Transformer Output Combiner

Edward Liu1,2, Hua Wang1

本文提出了一种用于28GHz相控阵的超紧凑Doherty功率放大器，采用非对称耦合变压器输出合成器实现小型化。解决了毫米波相控阵前端RF构建块集成度低、成本高的问题。

▸提出非对称耦合变压器输出合成器，实现超紧凑的Doherty功率放大器结构。

▸在28GHz频段实现高集成度设计，适用于大规模相控阵系统。

ETH Zurich, Zurich, Switzerland

ISSCC 2024Session 30AI / ML

Vecim: A 289.13GOPS/W RISC-V Vector Co-Processor with Compute-in-Memory Vector Register File for Efﬁcient High-Performance Computing

Yipeng Wang, Mengtian Yang, Chieh-pu Lo, Jaydeep P. Kulkarni

论文提出了一款名为Vecim的RISC-V向量协处理器，通过引入计算内存向量寄存器文件（Compute-in-Memory Vector Register File）来减少片上数据移动，解决了向量处理器中数据搬运开销大和外部内存带宽要求高的问题，实现了高效的高性能计算。

▸首次将计算内存（CIM）技术应用于向量寄存器文件，减少向量处理器中频繁的数据移动开销。

▸基于RISC-V向量扩展架构，设计高能效的协处理器，实现了289.13 GOPS/W的峰值能效。

University of Texas, Austin, TX 289.13 GOPS/W

ISSCC 2024Session 30AI / ML22nm

A 22nm 0.26nW/Synapse Spike-Driven Spiking Neural Network Processing Unit Using Time-Step-First Dataﬂow and Sparsity-Adaptive In-Memory Computing

Ying Liu*1, Yufei Ma*1, Ninghui Shang1, Tianhao Zhao2, Peiyu Chen1, Meng Wu1,

本文提出了一种基于22nm工艺的脉冲神经网络处理单元，采用时间步优先数据流和稀疏自适应技术，实现了每突触0.26nW的超低功耗。该设计针对动态视觉传感器等边缘AI应用，在保持高精度的同时大幅降低能耗。

▸提出时间步优先数据流架构，优化了SNN中时间维度的计算顺序，减少冗余操作。

▸引入稀疏自适应机制，动态利用脉冲稀疏性，进一步降低功耗和计算量。

Jiayoon Ru1, Tianyu Jia1, Le Ye1, Zhixuan Wang3, Ru Huang1 P 0.26nW/Synapse

ISSCC 2024Session 20AI / ML

Space-Mate: A 303.5mW Real-Time Sparse Mixture-ofExperts-Based NeRF-SLAM Processor for Mobile Spatial Computing

Gwangtae Park1, Seokchan Song1, Haoyang Sang1, Dongseok Im1,

本文提出一种基于稀疏混合专家（MoE）的NeRF-SLAM处理器，用于移动空间计算。该处理器实现了303.5mW低功耗下的实时稠密3D建图，解决了传统SLAM处理器只支持稀疏特征点且需要额外后处理的问题。

▸首次将稀疏混合专家（MoE）架构应用于NeRF-SLAM加速，实现高效的稀疏计算。

▸在303.5mW的超低功耗下实现实时稠密3D建图，适用于移动设备如AR眼镜和自主机器人。

Donghyeon Han2, Sangyeob Kim1, Hongseok Lee1, Hoi-Jun Yoo1 K 303.5mW

ISSCC 2024Session 20AI / ML

NeuGPU: A 18.5mJ/Iter Neural-Graphics Processing Unit for Instant-Modeling and Real-Time Rendering with SegmentedHashing Architecture

Junha Ryu1, Hankyul Kwon1, Wonhoon Park1, Zhiyong Li1, Beomseok Kwon1,

本文提出NeuGPU，一种支持即时建模和实时渲染的神经图形处理单元，通过分段哈希技术解决了传统NeRF训练耗时过长的问题，实现了高效3D建模和渲染，能量效率达18.5mJ/Iter。

▸提出NeuGPU架构，首次实现即时建模与实时渲染的联合硬件加速，无需手动设计或高成本3D扫描。

▸采用分段哈希（Segmented Hashing）方法优化内存访问和计算，显著降低训练与推理延迟。

Donghyeon Han2, Dongseok Im1, Sangyeob Kim1, Hyungnam Joo1, 18.5mJ/Iter

ISSCC 2024Session 20AI / ML

LSPU: A Fully Integrated Real-Time LiDAR-SLAM SoC with Point-Neural-Network Segmentation and Multi-Level kNN Acceleration

Jueun Jung1, Seungbin Kim1, Bokyoung Seo1, Wuyoung Jang1, Sangho Lee1,

本文提出了一款名为LSPU的全集成实时LiDAR-SLAM系统级芯片，解决了传统RGB视觉SLAM在自动驾驶中视场受限、深度感知不准确且易受环境影响的问题。该芯片通过点神经网络分割和多级kNN加速，实现了高精度、长距离360°点云地图构建与定位。

▸首次将点神经网络分割与多级kNN加速集成于单芯片，实现实时LiDAR-SLAM处理。

▸通过硬件加速器优化点云处理流程，显著提升能效比和吞吐量。

Jeongmin Shin1, Donghyeon Han2, Kyuho Jason Lee1 Ulsan Natio

ISSCC 2024Session 20AI / ML

C-Transformer: A 2.6-18.1μJ/Token Homogeneous DNN-Transformer/Spiking-Transformer Processor with Big-Little Network and Implicit Weight Generation for Large Language Models

Sangyeob Kim, Sangjin Kim, Wooyoung Jo, Soyeon Kim, Seongyon Hong, Hoi-Jun Yoo

该论文提出了一种名为C-Transformer的同质DNN-Transformer/Spiking-Transformer处理器，通过大-小网络架构实现了2.6-18.1μJ/Token的高能效处理，解决了传统Transformer模型在边缘设备上计算和能耗过高的问题。

▸提出大-小网络架构，结合DNN和Spiking神经网络，实现灵活高效的混合模型处理。

▸采用同质处理器设计，支持DNN-Transformer和Spiking-Transformer两种模式的无缝切换。

Korea Advanced Institute of Science and Technology, Daejeon, 2.6-18.1μJ/Token

ISSCC 2024Session 20AI / ML

A 28nm Physics Computing Unit Supporting Emerging Physics-Informed Neural Network and Finite Element Method for Real-Time Scientiﬁc Computing on Edge Devices

Yuhao Ju, Ganqi Xu, Jie Gu

The demand for real-time computing on edge devices from emerging applications, e.g. AI, has exploded in recent years. Lately, physics-based scientiﬁc computing has also drawn signiﬁcant interests driv

Northwestern University, Evanston, IL

ISSCC 2024Session 20AI / ML14nm

A 23.9TOPS/W @ 0.8V, 130TOPS AI Accelerator with 16× Performance-Accelerable Pruning in 14nm Heterogeneous Embedded MPU for Real-Time Robot Applications

Koichi Nose, Taro Fujii, Katsumi Togawa, Shunsuke Okumura, Kentaro Mikami,

本文提出一种在14nm异构嵌入式MPU中的AI加速器，通过16倍性能可加速剪枝技术，实现了23.9TOPS/W能效和130TOPS峰值性能，满足人机协作机器人对实时环境识别的高性能、低功耗需求。

▸提出16倍性能可加速剪枝技术，在保持高准确率的同时大幅提升处理速度和能效

▸在14nm异构嵌入式MPU中集成130TOPS峰值性能的AI加速器，实现23.9TOPS/W的领先能效

Daichi Hayashi, Teruhito Tanaka, Takao Toi Renesas Electroni 23.9TOPS/W @ 0.8V, 130TOPS

ISSCC 2024Session 20AI / ML28nm

A 28nm 74.34TFLOPS/W BF16 Heterogenous CIM-Based Accelerator Exploiting Denoising-Similarity for Diffusion Models

Ruiqi Guo1, Lei Wang1, Xiaofeng Chen1, Hao Sun1, Zhiheng Yue1, Yubin Qin1,

提出了一款基于异构存内计算（CIM）的加速器，利用去噪相似性优化扩散模型推理，在28nm工艺下实现74.34TFLOPS/W的能效，解决了量化激活导致图像质量下降及GPU推理延迟高功耗大的问题。

▸利用扩散模型去噪过程中的相似性特性，设计异构CIM架构减少冗余计算。

▸采用BF16精度而非整数量化，避免激活分布变化和迭代误差累积，保持图像质量。

Huiming Han1, Yang Wang1, Fengbin Tu2, Shaojun Wei1, Yang Hu 74.34TFLOPS/W

ISSCC 2024Session 20AI / ML3nm

NVE: A 3nm 23.2TOPS/W 12b-Digital-CIM-Based Neural Engine for High-Resolution Visual-Quality Enhancement on Smart Devices

Ming-En Shih*1, Shih-Wei Hsieh*1, Ping-Yuan Tsai*1, Ming-Hung Lin1,

本文提出了一款基于3nm工艺的12位数字计算存储（CIM）神经引擎NVE，用于智能设备的高分辨率视觉质量增强。该设计实现了23.2TOPS/W的高能效，解决了移动设备上视频增强的实时处理与功耗平衡问题。

▸首次在3nm节点实现12位精度的数字CIM架构，兼顾高精度与高能效。

▸通过创新的CIM电路和系统设计，在视觉质量增强任务中达到23.2TOPS/W的能效纪录。

23.2TOPS/W

ISSCC 2024Session 11AI / ML12nm

IBM NorthPole: An Architecture for Neural Network Inference with a 12nm Chip

Andrew S. Cassidy, John V. Arthur, Filipp Akopyan, Alexander Andreopoulos,

本文介绍了IBM NorthPole芯片，一种专为神经网络推理设计的12nm架构。该芯片通过创新的存算一体设计和高效的片上网络，实现了高能效和低延迟的推理计算。

▸提出了一种融合存储与计算的新型神经网络推理架构，减少数据搬运开销。

▸采用高效的片上网络和内存层次结构，优化了能效比和推理速度。

ISSCC 2023Session 9AI / ML

A 1mW Always-on Computer Vision Deep Learning Neural Decision Processor

David Garrett, Youn Sung Park, Seongjong Kim, Jay Sharma, Wenbin Huang,

该论文介绍了一款名为NDP200的超低功耗边缘AI处理器，专为计算机视觉应用设计，能够在1mW功率下持续运行。该处理器解决了门铃摄像头等功耗受限设备对低延迟推理的需求。

▸采用Syntiant Core 2架构，专门针对计算机视觉深度学习网络进行优化，实现超低功耗高性能。

▸集成8位直接视频端口（DVP）和I2C接口，适配多种摄像头传感器，支持always-on工作模式。

ISSCC 2023Session 7AI / ML

CTLE-Ising: A 1440-Spin Continuous-Time Latch-Based Ising Machine with One-Shot Fully-Parallel Spin Updates Featuring Equalization of Spin States

Jooyoung Bae*, Wonsik Oh*, Jahyun Koo, Bongjin Kim

该论文提出了一种基于连续时间锁存器的伊辛机（CTLE-Ising），具有1440个自旋，并实现了单次全并行自旋更新，用于高效解决组合优化问题。相比超导量子比特伊辛机需要极低温和高功耗，该设计可在室温下低功耗运行。

▸采用连续时间锁存器结构实现伊辛模型的自旋网络，避免了传统时序电路的限制。

▸提出一次全并行自旋更新机制，加快了收敛速度并提高了求解效率。

University of California, Santa Barbara, CA

ISSCC 2023Session 7AI / ML22nm

A 22nm Delta-Sigma Computing-In-Memory (∆ΣCIM) SRAM Macro with Near-Zero-Mean Outputs and LSB-First ADCs Achieving 21.38TOPS/W for 8b-MAC Edge AI Processing

Peiyu Chen*1, Meng Wu*1, Wentao Zhao1, Jiajia Cui1, Zhixuan Wang1,2,

提出了一种基于Delta-Sigma调制技术的计算内存(∆ΣCIM)SRAM宏，利用输入特征的渐进变化特性，通过近零均值输出和LSB优先ADC实现低功耗高精度矩阵向量乘法，解决AI边缘设备中数据移动能耗大的问题。

▸首次将Delta-Sigma调制应用于计算内存架构，利用输入信号的时域冗余减少计算能耗。

▸采用近零均值输出和LSB优先ADC设计，在保持高精度的同时显著降低转换功耗。

Yadong Zhang3, Qijun Wang3, Jiayoon Ru1, Linxiao Shen1, Tian

ISSCC 2023Session 7AI / ML28nm CMOS

CV-CIM: A 28nm XOR-Derived Similarity-Aware Computation-in-Memory for Cost-Volume Construction

Zhiheng Yue, Yang Wang, Huizheng Wang, Yabing Wang, Ruiqi Guo,

本文提出了一种基于XOR推导的相似性感知计算内存架构（CV-CIM），用于实时成本体积构建，解决了立体视觉处理中内存带宽和运算量的瓶颈问题。该设计在28nm工艺上实现了高能效的相似性计算。

▸提出XOR推导的相似性计算方法，简化了成本体积计算中的像素匹配操作。

▸采用相似性感知的计算内存架构，利用数据局部性减少内存访问，提升带宽效率。

Limei Tang, Leibo Liu, Shaojun Wei, Yang Hu, Shouyi Yin Tsin

ISSCC 2023Session 7AI / ML

A 70.85–86.27TOPS/W PVT-Insensitive 8b Word-Wise ACIM with Post-Processing Relaxation

end of the compute phase, the converted voltage (V8bink = Dink[7:0] × VREF /(16 × 17)) is, buffered into the SRAM array

该论文提出了一种PVT不敏感的8b字并行模拟计算存内（ACIM）设计，通过将全局VREF路由从8b 256节点大幅减少至16节点，实现了16倍面积缩减，同时避免了多转换和数字位移带来的时钟复杂度、增益、偏移、线性度和系统能量问题，最终在70.85–86.27 TOPS/W的能效范围内实现高性能计算。

▸通过16倍减少全局VREF路由节点，显著降低面积开销，并简化时钟和数字逻辑。

▸提出后处理放松（Post-Processing Relaxation）技术，改善PVT不敏感性和系统能效。

ISSCC 2023Session 7AI / ML28nm CMOS

A 28nm Horizontal-Weight-Shift and Vertical-Feature-ShiftBased Separate-WL 6T-SRAM Computation-in-Memory Unit-Macro for Edge Depthwise Neural-Networks

Bo Wang, Chen Xue, Zhongyuan Feng, Zhaoyang Zhang, Han Liu, Lizheng Ren,

该论文提出了一种基于水平权重移位和垂直特征移位的分离字线6T-SRAM计算存储单元宏，用于边缘AI设备中的深度可分离卷积操作，解决了传统SRAM CIM对深度可分离卷积支持不足、精度与参数权衡的问题。

▸提出水平权重移位与垂直特征移位相结合的分离字线6T-SRAM宏架构，支持深度可分离卷积的高效计算。

▸通过分离字线设计实现灵活的数据流和计算模式，适应轻量级神经网络的需求。

ISSCC 2023Session 7AI / ML4nm

A 4nm 6163-TOPS/W/b 4790-TOPS/mm2/b SRAM Based Digital-Computing-in-Memory Macro Supporting Bit-Width Flexibility and Simultaneous MAC and Weight Update disabled, to save power, in 8b mode. The INWIDTH[1:0] bus controls the XIN width: 00 for 8b, 01 for 12b, and 10 for 16b modes. To support a signed format with width flexibility, the first 4 cycles are signed 4b operations and the rest of the cycles are unsigned 4b operations, regardless of INWIDTH.

Haruki Mori1, Wei-Chang Zhao1, Cheng-En Lee1, Chia-Fu Lee1, Yu-Hao Hsu1,

本文提出了一款基于4nm工艺的SRAM数字存内计算宏，支持位宽灵活性，实现了6163 TOPS/W/b的能效和4790 TOPS/mm²/b的面积效率。通过混合阈值电压设计和加法器树流水线优化，平衡了性能与漏电。

▸采用混合Vt设计，在本地加法器和全局加法器中合理分配不同阈值电压器件，优化性能与漏电的平衡。

▸提出加法器树流水线结构，基于位宽灵活性进行动态重构，提升计算效率和密度。

6163 TOPS/W/b, 4790 TOPS/mm²/b

ISSCC 2023Session 7AI / ML28nm CMOS

A 28nm 38-to-102-TOPS/W 8b Multiply-Less Approximate Digital SRAM Compute-In-Memory Macro for Neural-Network Inference

Yifan He1, Haikang Diao2, Chen Tang1, Wenbin Jia1, Xiyuan Tang2, Yuan Wang2,

本文提出了一种28nm工艺下2-8比特可扩展的数字SRAM存内计算宏单元，通过无乘法神经网络设计方法和动态逻辑近似电路实现向量-向量运算，解决了数字CIM中近似计算精度损失和能效瓶颈问题。

▸提出无乘法（multiply-less）的神经网络协同设计方法，消除乘法器开销，提升能效。

▸采用动态逻辑基近似电路，在保持精度的前提下降低数字CIM的功耗和面积。

Jinshan Yue3, Xueqing Li1, Huazhong Yang1, Hongyang Jia1, Yo 38-to-102 TOPS/W @ 8b

ISSCC 2023Session 7AI / ML28nm CMOS

A 28nm 64-kb 31.6-TFLOPS/W Digital-Domain Floating-PointComputing-Unit and Double-Bit 6T-SRAM Computing-inMemory Macro for Floating-Point CNNs

An Guo, Xin Si, Xi Chen, Fangyuan Dong, Xingyu Pu, Dongqi Li,

该论文提出了一种采用28nm工艺的64kb SRAM计算内存宏，集成了数字域浮点计算单元和双位6T-SRAM单元，实现了31.6 TFLOPS/W的能效。它解决了传统SRAM-CIM只能高效支持整数精度MAC运算的局限，将计算能力扩展到浮点域，从而更适合检测、分割等复杂AI任务。

▸提出数字域浮点计算单元（Digital-Domain Floating-Point Computing-Unit），支持浮点运算而无需模拟转换开销。

▸采用双位6T-SRAM单元（Double-Bit 6T-SRAM），在保持高能效的同时实现多比特权重存储与计算。

31.6 TFLOPS/W

ISSCC 2023Session 7AI / ML22nm CMOS

A 22nm 832Kb Hybrid-Domain Floating-Point SRAM In-Memory-Compute Macro with 16.2-70.2TFLOPS/W for High-Accuracy AI-Edge Devices

Ping-Chun Wu*1, Jian-Wei Su*1,2, Li-Yang Hong1, Jin-Sheng Ren1,

该论文提出一种基于22nm工艺的832Kb混合域浮点SRAM存内计算宏单元，通过融合浮点计算与存内计算架构，解决了AI边缘设备中能效与精度难以兼顾的问题。

▸采用混合域浮点计算方式，在保持高精度的同时显著提升能效至16.2-70.2 TFLOPS/W

▸在22nm工艺节点实现832Kb大容量SRAM存内计算宏，适用于高精度AI边缘推理

16.2-70.2 TFLOPS/W, 832Kb

← 上一页 · 第 2/5 页 · 共 231 篇 · 下一页 →