AI / ML — ISSCC & JSSC 知识库

ISSCC 2021Session 16AI / ML

eDRAM-CIM: Compute-In-Memory Design with Reconfigurable Embedded-Dynamic-Memory Array Realizing Adaptive Data Converters and Charge-Domain Computing

Shanshan Xie1, Can Ni1, Aseem Sayal1, Pulkit Jain2, Fatih Hamzaoglu2, Jaydeep P. Kulkarni1

该论文提出了一种基于eDRAM的存内计算（CIM）设计，通过可重构的嵌入式动态存储器阵列实现自适应数据转换器，旨在解决机器学习加速器中数据移动带来的内存墙瓶颈问题。该设计利用1T1C DRAM位单元进行模拟计算，结合混合信号外围电路，提高能效和计算精度。

▸创新点1：采用eDRAM 1T1C单元实现存内模拟计算，减少数据搬运开销。

▸创新点2：可重构存储器阵列支持自适应数据转换器，提升计算灵活性和能效。

University of Texas, Austin, TX Intel, Hillsboro, OR 1 2 The

ISSCC 2021Session 15AI / ML65nm

A 65nm 3T Dynamic Analog RAM-Based Computing-inMemory Macro and CNN Accelerator with Retention

Enhancement, Adaptive Analog Sparsity and 44TOPS/W, System Energy Efficiency

本文提出了一种基于65nm 3T动态模拟RAM的内存计算宏与CNN加速器，通过保持增强和自适应模拟稀疏性技术，实现了44TOPS/W的系统能效，解决了高精度模拟内存计算中的稀疏性和保留问题。

▸采用3T动态模拟RAM单元实现内存计算，支持模拟域的高效运算。

▸引入保持增强技术，改善模拟存储单元的电荷保持特性。

Zhengyu Chen, Xi Chen, Jie Gu Northwestern University, Evans 44TOPS/W

ISSCC 2021Session 15AI / ML

A Programmable Neural-Network Inference Accelerator Based on Scalable In-Memory Computing operations occur in the dedicated NMC BPBS SIMD module, which is optimized for 1-to-8b weights/activations, and further programmable element-wise operations (e.g., arbitrary activations functions) occur in the NMC CMPT SIMD module.

Hongyang Jia, Murat Ozatay*, Yinqi Tang*, Hossein Valavi*, Rakshit Pathak*,

该论文提出了一种基于可扩展内存计算的可编程神经网络推理加速器，通过可配置的内存计算单元（CIMU）和软件指令库，支持神经网络层的时间与空间映射，从而提升硬件利用率并降低状态复制开销。

▸提出了可编程内存计算单元（CIMU）架构，结合软件指令库实现灵活的时间和空间映射。

▸支持大规模神经网络层的空间映射（循环展开），避免了典型复制策略中的状态加载开销。

ISSCC 2021Session 12AI / ML

A 148nW General-Purpose Event-Driven Intelligent Wake-Up Chip for AIoT Devices Using Asynchronous Spike-Based Feature Extractor and Convolutional Neural Network

Zhixuan Wang1, Le Ye1,2, Ying Liu1, Peng Zhou2, Zhichao Tan3, Haitao Fan2,

提出了一款148nW的通用事件驱动智能唤醒芯片，用于AIoT设备，采用异步脉冲特征提取技术，解决了随机稀疏事件场景下的功耗瓶颈问题。

▸采用异步脉冲特征提取架构，实现极低功耗（148nW）的通用唤醒功能

▸事件驱动设计，仅在检测到有效事件时唤醒主系统，显著降低系统待机功耗

Yihan Zhang1, Jiayoon Ru4, Yangyuan Wang1, Ru Huang1 Peking

ISSCC 2020Session 7AI / ML

GANPU: A 135TFLOPS/W Multi-DNN Training Processor for GANs with Speculative Dual-Sparsity Exploitation

Sanghoon Kang, Donghyeon Han, Juhyoung Lee, Dongseok Im,

该论文提出了一种名为GANPU的多DNN训练处理器，用于生成对抗网络（GAN）的训练，通过推测性双稀疏性开发实现了135TFLOPS/W的高能效。它解决了GAN训练中计算密集和内存访问频繁的问题，显著提升了移动设备上GAN应用的性能。

▸提出推测性双稀疏性开发技术，同时利用权重和激活值的稀疏性来减少计算和内存访问。

▸设计了一种多DNN训练架构，支持生成器和判别器的交替训练，优化了流水线效率。

Sangyeob Kim, Soyeon Kim, Hoi-Jun Yoo KAIST, Daejeon, Korea 135TFLOPS/W

ISSCC 2020Session 7AI / ML

STATICA: A 512-Spin 0.25M-Weight Full-Digital Annealing Processor with a Near-Memory All-SpinUpdates-at-Once Architecture for Combinatorial Optimization with Complete Spin-Spin Interactions

Kasho Yamamoto1,2, Kota Ando1, Normann Mertig3, Takashi Takemoto3,

该论文提出了一款名为STATICA的全数字退火处理器，集成了512个自旋和0.25M权重，采用近内存全自旋同时更新架构，旨在解决组合优化问题中的计算瓶颈。通过近似分段线性函数替代查找表，实现了轻量级自旋更新单元，提升了能效和速度。

▸提出近内存全自旋同时更新架构，减少数据搬运开销，提高并行处理效率。

▸采用分段线性函数近似sigmoid函数，替代传统查找表，降低自旋更新单元硬件复杂度。

ISSCC 2020Session 7AI / ML12nm

A 12nm Programmable Convolution-Efficient Neural-Processing-Unit Chip Achieving 825TOPS

Yang Jiao1, Liang Han1, Rong Jin2, Yi-Jung Su1, Chiente Ho1, Li Yin3,

该论文提出了一款在12nm工艺下实现的可编程卷积高效神经处理单元芯片，峰值性能达到825TOPS，旨在解决数据中心中卷积神经网络的高效计算需求。通过优化卷积运算的硬件架构和可编程性，实现了高吞吐量和能效比。

▸针对卷积神经网络计算特点，设计了高效卷积加速架构，提升了运算效率。

▸采用12nm先进工艺实现高集成度，实现825TOPS的峰值性能。

825TOPS

ISSCC 2020Session 7AI / ML7nm

A 3.4-to-13.3TOPS/W 3.6TOPS Dual-Core Deep-Learning Accelerator for Versatile AI Applications in 7nm 5G Smartphone SoC

Chien-Hung Lin, Chih-Chung Cheng, Yi-Min Tsai, Sheng-Je Hung,

该论文提出了一款用于5G智能手机的双核深度学习加速器，采用7nm工艺，实现了3.4至13.3 TOPS/W的能效和3.6 TOPS的性能，旨在满足多种AI应用对实时性和能效的严苛要求。

▸采用双核架构设计，通过任务并行和动态电压频率调整，在性能和功耗之间实现灵活平衡。

▸针对不同AI应用（如图像识别、去噪、语音识别）优化数据流和计算单元，提升能效比。

3.4-13.3 TOPS/W 能效, 3.6 TOPS 性能

ISSCC 2020Session 34AI / ML

1225-Channel Localized Temperature-Regulated Neuromorphic Retinal-Prosthesis SoC with 56.3nW/Channel Image Processor

Jeong Hoan Park1, Joanne Si Ying Tan 1, Han Wu1, Jerald Yoo1,2

该论文提出了一款1225通道的局部温度调节神经形态视网膜假体SoC，通过集成神经形态图像处理器和温度调节功能，解决了传统视网膜假体通道数受限、带宽瓶颈和高电源电压功耗问题。

▸提出1225通道高密度刺激阵列，实现更高空间分辨率的视觉恢复。

▸集成局部温度调节电路，防止刺激引起的组织热损伤，提升安全性。

National University of Singapore, Singapore, Singapore 56.3nW/通道图像处理器功耗

ISSCC 2020Session 33AI / ML

A Fully Integrated Analog ReRAM Based 78.4TOPS/W Compute-In-Memory Chip with Fully Parallel MAC Computing cell is signed quasi-2-bit (3-level) or signed quasi-3-bit (7-level) accordingly.

According to the off-chip test on the same ReRAM stacks, the device conductance, could be tuned continuously. However, t

本文实现了一款基于模拟ReRAM的存内计算芯片，通过全并行MAC计算单元和低压低功耗ADC设计，达到了78.4TOPS/W的能效，解决了传统架构的存储墙问题。

▸利用ReRAM器件的多态电阻实现模拟域乘累加运算，支持256个电导状态。

▸设计了一种低功耗分段电容DAC与积分器结合的LPAR-ADC，高效读取电流信号。

78.4TOPS/W

ISSCC 2020Session 31AI / ML

CIM-Spin: A 0.5-to-1.2V Scalable Annealing Processor Using Digital Compute-In-Memory Spin Operators and Register-Based Spins for Combinatorial Optimization Problems

Yuqi Su*, Hyunjoon Kim*, Bongjin Kim

该论文提出了一种基于数字计算内存（Compute-In-Memory）自旋算子的可扩展退火处理器CIM-Spin，用于解决组合优化问题。通过利用Ising模型的收敛特性和量子隧穿效应，实现了在0.5V至1.2V宽电压范围内的有效退火计算。

▸采用数字计算内存自旋算子（Digital Compute-In-Memory Spin Operators），将计算与存储融合以提高能效。

▸提出可扩展的退火处理器架构，支持宽电压范围（0.5-1.2V）工作，适应不同性能需求。

Nanyang Technological University, Singapore, Singapore

ISSCC 2020Session 26AI / ML

A Neuromorphic Multiplier-Less Bit-Serial WeightMemory-Optimized 1024-Tree Brain-State Classifier and Neuromodulation SoC with an 8-Channel Noise-Shaping SAR ADC Array

Gerard O'Leary1, Jianxiong Xu1, Liam Long1, Jose Sales Filho1,

该论文提出了一种用于个性化脑植入设备的神经形态无乘法器位串行权重存储器优化的1024树脑状态分类器与神经调节SoC，旨在实现高能效的脑状态实时分类以优化神经调控时机，解决癫痫发作前精准干预的问题。

▸采用无乘法器位串行架构，显著降低硬件复杂度和功耗，适合植入式应用。

▸权重存储器优化设计，结合1024树分类器结构，在保证分类精度的同时减少存储开销。

ISSCC 2020Session 24AI / ML

A 15b Quadrature Digital Power Amplifier with Transformer-Based Complex-Domain Power-Efficiency Enhancement

Diyang Zheng, Yun Yin, Yiting Zhu, Liang Xiong, Yicheng Li, Na Yan, Hongtao Xu

该论文提出了一种15位正交数字功率放大器，采用基于变压器的复数域功率效率增强技术。解决了传统数字功率放大器在效率与分辨率之间的折衷问题，实现了高分辨率与高效率的融合。

▸提出基于变压器的复数域功率效率增强技术，将正交信号与功率合成在复数域进行优化，提升了整体效率。

▸实现15位高分辨率正交数字功率放大器，在保持高线性度的同时降低了功耗。

Fudan University, Shanghai, China With CMOS processes scalin

ISSCC 2020Session 24AI / ML

A 24-to-30GHz Watt-Level Broadband Linear Doherty Power Amplifier with Multi-Primary Distributed-ActiveTransformer Power-Combining Supporting 5G NR FR2 64-QAM with >19dBm Average Pout and >19% Average PAE

Fei Wang, Hua Wang

该论文提出了一种24-30GHz瓦级宽带线性Doherty功率放大器，采用多初级分布式有源变压器功率合成技术，解决了5G毫米波用户设备中因天线阵列数量受限而需要高输出功率的问题。

▸提出多初级分布式有源变压器功率合成架构，实现宽带高功率输出。

▸采用线性Doherty结构，在宽频带内保持高效率和高线性度。

Georgia Institute of Technology, Atlanta, GA

ISSCC 2020Session 18AI / ML

A Fully-Generic-Process Galvanic Isolator for Gate Driver with 123mW 23% Power Transfer and Full-Triplex 21/14/0.5Mb/s Bidirectional Communication Utilizing Reference-Free Dual-Modulation FSK DATA2 is transferred in the same manner as DATA1 through another transformer. Almost all the circuits excluding the DATA1 driver and I/O buffer operate at 1.5V supply to support sufficiently high operating speed. The driver operates with 5.5V supply to transfer power by the same transformer, and the rectifier placed in parallel with the DATA1 receiver extracts the received power.

Hiroaki Ishihara, Kohei Onizuka, Figure 18.8.3 explains the operation of the error-tolerant DATA1 demodulator.

该论文提出了一种全通用工艺的电流隔离器，用于栅极驱动器，实现了123mW功耗和23%的功率传输效率，并支持全三工通信，速率分别为21/14/0.5Mb/s。通过VCO同步和双延迟线解调技术，解决了变压器有限带宽导致的时序不确定性，避免了数据错误。

▸采用VCO同步和基于延迟的数字频率计数解调方法，提高了数据接收的可靠性。

▸使用双11级DFF延迟线，将随机时序不确定性减半，消除了最坏情况下的时序裕度问题。

123mW功耗，23%功率传输效率，21/14/0.5Mb/s三工数据速率

ISSCC 2020Session 15AI / ML28nm CMOS

A 28nm 64Kb 6T SRAM Computing-in-Memory Macro with 8b MAC Operation for AI Edge Chips multiplication results (PL"="IN[1:0]"⋅ W) to HGBLB.

Xin Si , Yung-Ning Tu , Wei-Hsing Huang , Jian-Wei Su , Pei-Jung Lu ,

该论文提出了一种基于28nm 64Kb 6T SRAM的存内计算宏，支持8位乘加运算，用于AI边缘芯片。通过创新的电路设计，解决了传统架构中数据搬运带来的功耗和延迟瓶颈，实现了高效的多位MAC操作。

▸提出了一种6T SRAM存内计算宏，支持8位输入和权重的乘加运算，无需额外模拟计算单元。

▸通过优化的位线计算方案，实现了高能效的多位MAC操作，适用于边缘AI推理。

ISSCC 2020Session 15AI / ML22nm

A 22nm 2Mb ReRAM Compute-in-Memory Macro with 121-28TOPS/W for Multibit MAC Computing for Tiny AI Edge Devices

Cheng-Xin Xue, Tsung-Yuan Huang, Je-Syu Liu, Ting-Wei Chang,

本文提出了一款基于22nm工艺的2Mb ReRAM存内计算宏，支持多比特乘累加（MAC）运算，实现了121-28TOPS/W的高能效，适用于微型AI边缘设备。解决了传统非易失性存内计算仅支持二进制输入/权重的问题，大幅提升了能效和延迟。

▸首次在ReRAM存内计算中实现多比特（非二进制）输入和权重的MAC运算，支持灵活的比特精度配置。

▸通过电路和架构优化，实现了宽动态范围的能效（121-28TOPS/W），在2Mb容量下保持高性能。

121-28TOPS/W

ISSCC 2020Session 15AI / ML7nm FinFET CMOS

A 351TOPS/W and 372.4GOPS Compute-in-Memory SRAM Macro in 7nm FinFET CMOS for Machine-Learning Applications

Qing Dong1, Mahmut E. Sinangil1, Burak Erbagci1, Dar Sun2,

该论文提出了一种基于7nm FinFET CMOS工艺的计算存储融合（CIM）SRAM宏单元，用于机器学习应用。它解决了传统CIM方案中面积、噪声容限和权值精度的权衡问题，实现了高能效和高吞吐量。

▸采用新型SRAM位单元设计，在保持小面积的同时提高了并行度和噪声容限。

▸利用7nm FinFET工艺优化能效和性能，实现了351TOPS/W的能效和372.4GOPS的吞吐量。

Win-San Khwa2, Hung-Jen Liao2, Yih Wang2, Jonathan Chang2 TS 351 TOPS/W energy efficiency, 372.4 GOPS throughput

ISSCC 2020Session 15AI / ML28nm CMOS

A 28nm 64Kb Inference-Training Two-Way Transpose Multibit 6T SRAM Compute-in-Memory Macro for AI Edge Chips

Jian-Wei Su1,2, Xin Si1, Yen-Chi Chou1, Ting-Wei Chang1,

本文提出了一款基于28nm工艺的64Kb存算一体宏，采用6T SRAM单元实现了双向转置多比特计算，同时支持推理和训练操作，旨在为AI边缘设备提供高能效和快速计算能力。

▸首次在6T SRAM存算一体宏中实现双向转置操作，支持推理和训练两种模式，提高了计算灵活性。

▸采用多比特计算架构，在保持面积效率的同时提升了计算精度，适用于边缘AI场景。

ISSCC 2020Session 15AI / ML5nm

A 5nm 135Mb SRAM in EUV and High-Mobility-Channel FinFET Technology with Metal Coupling and ChargeSharing Write-Assist Circuitry Schemes for High-Density and Low-VMIN Applications

Jonathan Chang, Yen-Huei Chen, Gary Chan, Hank Cheng,

该论文提出了一种采用5nm EUV和高迁移率沟道FinFET技术的135Mb SRAM，通过金属耦合和电荷共享写辅助电路来降低最小工作电压（VMIN），解决了先进工艺下SRAM因随机阈值电压波动导致的低电压操作难题。

▸首次在5nm节点结合EUV和高迁移率沟道FinFET实现135Mb SRAM，提升晶体管性能与良率。

▸提出金属耦合和电荷共享写辅助技术，有效降低写操作所需电压，改善低电压下的写裕度。

ISSCC 2020Session 14AI / ML65nm

A 65nm Computing-in-Memory-Based CNN Processor with 2.9-to-35.8TOPS/W System Energy Efficiency Using Dynamic-Sparsity Performance-Scaling Architecture and Energy-Efficient Inter/Intra-Macro Data Reuse

Jinshan Yue1,2, Zhe Yuan1,2, Xiaoyu Feng1, Yifan He1, Zhixiao Zhang3,

提出了一种基于65nm计算内存（CIM）的CNN处理器，通过动态稀疏性优化技术实现系统级能效提升。解决了先前CIM工作仅关注宏单元而缺乏系统集成和稀疏优化的问题，实现了2.9至35.8 TOPS/W的宽范围系统能效。

▸首次在CIM处理器中系统地探索稀疏优化，通过动态稀疏性技术提高能量效率。

▸实现了CIM宏单元与处理器其余部分的系统级集成，克服了直接映射稀疏模型到常规CIM宏的低效问题。

Xin Si3, Ruhui Liu3, Meng-Fan Chang3, Xueqing Li1, Huazhong 2.9-to-35.8TOPS/W system energy efficiency

ISSCC 2020Session 14AI / ML65nm CMOS

A 65nm 24.7µJ/Frame 12.3mW Activation-SimilarityAware Convolutional Neural Network Video Processor

Using Hybrid Precision, Inter-Frame Data Reuse and, Mixed-Bit-Width Difference-Frame Data Codec

本文提出了一种激活相似性感知的卷积神经网络视频处理器，通过混合精度计算、帧间数据重用和混合位宽差分技术，显著降低了计算和存储功耗。在65nm工艺下实现了12.3mW功耗和24.7µJ/帧的效率，适用于自动驾驶和监控等视频应用。

▸提出激活相似性感知架构，利用帧间激活值的相似性跳过冗余计算，降低功耗。

▸采用混合精度和混合位宽差分技术，灵活调整计算精度以平衡功耗与精度。

24.7µJ/Frame, 12.3mW

ISSCC 2020Session 14AI / ML

A 510nW 0.41V Low-Memory Low-Computation Keyword-Spotting Chip Using Serial FFT-Based MFCC and Binarized Depthwise Separable Convolutional Neural Network in 28nm CMOS

Weiwei Shan1, Minhao Yang2, Jiaming Xu1, Yicheng Lu1, Shuai Zhang1,

本文提出了一款功耗仅510nW、电压0.41V的关键词唤醒芯片，采用串行FFT的MFCC特征提取和二值化深度可分离卷积神经网络，解决了传统KWS芯片功耗过高（>5µW）的问题，实现了超低功耗的始终在线语音接口。

▸首次实现510nW级别的关键词唤醒芯片，功耗比之前工作降低一个数量级。

▸采用串行FFT的MFCC和二值化深度可分离卷积，大幅降低内存和计算量。

Tao Wang1, Jun Yang1, Longxing Shi1, Mingoo Seok3 Southeast 510nW @ 0.41V

ISSCC 2020Session 1AI / ML

The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design Jeffrey Dean

Google Research, Mountain View, CA, Abstract

本文作为ISSCC 2020的keynote配套论文，回顾了深度学习在计算机视觉、语音识别等领域取得的突破，并探讨了这些进展对计算机架构和芯片设计的启示，强调了硬件与软件协同设计的重要性。

▸提出了深度学习对专用硬件加速器（如TPU）的需求，并展望了未来芯片设计方向。

▸强调了模拟计算、内存计算等新型计算范式在深度学习硬件中的潜力。

ISSCC 2019Session 7AI / ML

LNPU: A 25.3TFLOPS/W Sparse Deep-Neural-Network Learning Processor with Fine-Grained Mixed Precision of FP8-FP16

Jinsu Lee, Juhyoung Lee, Donghyeon Han, Jinmook Lee, Gwangtae Park, Hoi-Jun Yoo

本文提出LNPU，一种支持片上稀疏深度神经网络学习的处理器，通过细粒度混合精度FP8-FP16实现高能效。解决了边缘设备上本地DNN学习能效低的问题，达到了25.3TFLOPS/W的性能。

▸提出细粒度混合精度FP8-FP16，在保持精度的同时大幅提升能效。

▸利用稀疏性减少计算和存储开销，实现高效片上学习。

KAIST, Daejeon, Korea Recently, deep neural network (DNN) ha 25.3TFLOPS/W

ISSCC 2019Session 7AI / ML65nm

A 65nm 236.5nJ/Classification Neuromorphic Processor with 7.5% Energy Overhead On-Chip Learning Using Direct Spike-Only Feedback

Seoul National University, Seoul, Korea, spikes, greatly reducing computation and global interconnects. While the single

该论文提出了一种65nm工艺的神经形态处理器，通过直接尖峰学习方法实现片上学习，能量开销仅为7.5%，在分类任务中每次分类能耗为236.5nJ。解决了传统神经网络处理器在学习过程中计算和能耗过高的问题。

▸提出直接尖峰学习方法，仅使用尖峰信号进行片上学习，大幅降低计算和能耗开销。

▸实现了7.5%能量开销的片上学习，显著提升了能效比。

236.5nJ/classification, 7.5% energy overhead

ISSCC 2019Session 7AI / ML

A 65nm 0.39-to-140.3TOPS/W 1-to-12b Unified NeuralNetwork Processor Using Block-Circulant-Enabled Transpose-Domain Acceleration with 8.1× Higher TOPS/mm2 and 6T HBST-TRAM-Based 2D Data-Reuse Architecture

Jinshan Yue1, Ruoyang Liu1, Wenyu Sun1, Zhe Yuan1, Zhibo Wang1,

本文提出一种65nm工艺的统一神经网络处理器，通过块循环矩阵使能的转置域加速技术，支持CNN、FC、RNN三种网络，实现0.39-140.3 TOPS/W的宽能效范围和1-12b精度可配置，解决了异构架构面积效率低和能效低的问题。

ISSCC 2019Session 7AI / ML

A 2.1TFLOPS/W Mobile Deep RL Accelerator with Transposable PE Array and Experience Compression

Changhyeon Kim, Sanghoon Kang, Dongjoo Shin, Sungpill Choi,

该论文提出了一种用于移动深度强化学习的加速器芯片，通过可转置处理单元阵列和体验压缩技术，实现了高能效的实时推理和训练，解决了强化学习在自主系统中需要本地实时操作的问题。

▸提出可转置PE阵列，支持矩阵转置操作，提升强化学习训练中的计算效率。

▸采用体验压缩技术，减少经验回放缓冲区的存储和带宽需求。

Youngwoo Kim, Hoi-Jun Yoo KAIST, Daejeon, Korea Recently, de 2.1TFLOPS/W

ISSCC 2019Session 7AI / ML

An 879GOPS 243mW 80fps VGA Fully Visual CNN-SLAM Processor for Wide-Range Autonomous Exploration

Ziyun Li, Yu Chen, Luyao Gong, Lu Liu, Dennis Sylvester, David Blaauw, Hun-Seok Kim

本文提出了一款全视觉CNN-SLAM处理器，能够在80fps VGA分辨率下实现879GOPS的峰值性能，功耗仅243mW，支持6自由度轨迹估计和3D地图构建，解决了传统SLAM方法在资源受限平台上的实时性和能效瓶颈。

▸首次将CNN特征提取与SLAM后端处理融合到单一处理器中，实现全硬件化的视觉SLAM流水线。

▸采用稀疏化卷积和动态精度量化技术，在保持精度前提下大幅降低计算与存储开销。

879GOPS @ 243mW, 80fps VGA

ISSCC 2019Session 7AI / ML

A 20.5TOPS and 217.3GOPS/mm2 Multicore SoC with DNN Accelerator and Image Signal Processor Complying with ISO26262 for Automotive Applications

Yutaka Yamada, Toru Sano, Yasuki Tanabe, Yutaro Ishigaki,

本文提出了一款用于高级驾驶辅助系统（ADAS）的多核SoC，集成了DNN加速器和图像信号处理器，实现了20.5TOPS的峰值性能和217.3GOPS/mm2的能效密度，并符合ISO26262功能安全标准。该SoC解决了ADAS系统中高性能、高能效与功能安全兼容的挑战。

▸首次在单个SoC中同时集成DNN加速器和图像信号处理器，并满足ISO26262功能安全要求，适用于汽车ADAS应用。

▸通过多核架构和优化的硬件设计，实现了高能效比（217.3GOPS/mm2）和高性能（20.5TOPS）。

20.5TOPS, 217.3GOPS/mm2, 符合ISO26262

ISSCC 2019Session 7AI / ML8nm

An 11.5TOPS/W 1024-MAC Butterfly Structure Dual-Core Sparsity-Aware Neural Processing Unit in 8nm Flagship Mobile SoC

Jinook Song1, Yunkyo Cho1, Jun-Seok Park1, Jun-Woo Jang2,

该论文提出了一种在8nm旗舰移动SoC中集成的双核稀疏感知神经网络处理单元（NPU），采用蝶形结构集成1024个MAC单元，实现了11.5TOPS/W的高能效。通过稀疏性感知技术有效利用剪枝后的网络稀疏性，解决了移动平台上深度神经网络高性能与低功耗的矛盾。

▸提出蝶形结构双核架构，支持1024个MAC单元并行计算，提升吞吐量。

▸引入稀疏性感知处理机制，利用神经网络剪枝后的稀疏性跳过零值运算，显著降低功耗和计算量。

Sehwan Lee2, Joon-Ho Song2, Jae-Gon Lee1, Inyup Kang1 Samsun 11.5TOPS/W

ISSCC 2019Session 4AI / ML

A 60GHz CMOS Power Ampliﬁer with Cascaded Asymmetric Distributed-Active-Transformer Achieving Watt-Level Peak Output Power with 20.8% PAE and Supporting 2Gsym/s 64-QAM Modulation

Huy Thong Nguyen, Doohwan Jung, Hua Wang

本文提出了一种级联非对称分布式有源变压器（DAT）结构，用于解决60GHz毫米波CMOS功率放大器中因绕组间电容导致的阻抗变换不对称问题，实现了瓦特级峰值输出功率。

▸提出级联非对称分布式有源变压器（Cascaded Asymmetric DAT）结构，有效补偿高频下DAT各段之间的阻抗失配。

▸在60GHz CMOS工艺中首次实现基于DAT的瓦特级功率放大器，克服了毫米波频段DAT设计的挑战。

Georgia Institute of Technology, Atlanta, GA

ISSCC 2019Session 4AI / MLSiGe HBT

A Highly Linear High-Power 802.11ac/ax WLAN SiGe HBT Power Ampliﬁer Using a Compact 2nd-Harmonic-Shorting Four-Way Transformer and Integrated Thermal Sensors proposed four-way transformer achieves simultaneous fundamental and 2ndharmonic impedance matching with the efﬁcient parallel power combining capability.

Inchan Ju1, Mike McPartlin2, Chun-Wen Paul Huang2, Clifford DY Cheon1,

本文提出了一种用于802.11ac/ax WLAN的高线性高功率SiGe HBT功率放大器，采用紧凑的二次谐波短路四路变压器结构，解决了高功率下的线性度问题，并通过电热补偿技术提高了热稳定性。

▸采用紧凑的二次谐波短路四路变压器实现高线性高功率输出

▸利用热传感器和互补温度特性进行电热补偿，维持集电极电流稳定

ISSCC 2019Session 4AI / ML

A Broadband Switched-Transformer Digital Power Ampliﬁer for Deep Back-Off Efﬁciency Enhancement

Liang Xiong, Tong Li, Yun Yin, Hao Min, Na Yan, Hongtao Xu

该论文提出了一种宽带开关变压器数字功率放大器，旨在提升深度回退效率，解决现代无线通信中高峰均比和宽功率范围导致的低效率问题。通过采用数字式技术和变压器结构，实现了在12/18dB及以上回退水平下的高效率。

▸提出了一种宽带开关变压器数字功率放大器架构，结合数字预失真和动态阻抗匹配，显著提高了深度回退效率。

▸采用多段式功率组合和自适应偏置技术，在宽功率范围内保持高效率。

Fudan University, Shanghai, China

ISSCC 2019Session 28AI / ML

A 606µW mm-Scale Bluetooth Low-Energy Transmitter Using Co-Designed 3.5×3.5mm2 Loop Antenna and Transformer-Boost Power Oscillator

Yao Shi, Xing Chen, Hun-Seok Kim, David Blaauw, David Wentzloff

该论文提出了一种毫米级尺寸的蓝牙低功耗（BLE）发射器，通过协同设计的3.5×3.5mm²环形天线和变压器升压电源，在606µW超低功耗下实现了BLE标准兼容的无线通信。解决了毫米级无线传感器节点功耗高、天线尺寸大以及需要专有协议的问题。

▸首次在毫米级尺寸（3.5×3.5mm²）下实现BLE标准兼容的发射器，保证了与主流设备的互操作性。

▸采用天线与变压器升压电源协同设计，将天线和匹配网络一体化集成，显著减小面积并提升效率。

University of Michigan, Ann Arbor, MI

ISSCC 2019Session 26AI / ML22nm FDSOI

A 0.1-to-0.2V Transformer-Based Switched-Mode Folded DCO in 22nm FDSOI with Active Step-Down Impedance Achieving 197dBc/Hz Peak FoM and 40MHz/V Frequency Pushing

Omar El-Aassar, Gabriel M. Rebeiz

本文提出了一种基于变压器的开关模式折叠DCO，可在0.1-0.2V超低电压下工作，通过主动降压阻抗技术显著改善相位噪声和FoM，在22nm FDSOI工艺中实现了197dBc/Hz的峰值FoM。

▸采用三线圈变压器结构实现被动电压增益和降低漏极阻抗，使振荡器能在低于100mV的电源电压下工作。

▸提出主动降压阻抗技术，进一步优化相位噪声性能，在150mV电源下达到197dBc/Hz的FoM。

University of California, San Diego, La Jolla, CA 197dBc/Hz FoM @ 150mV supply

ISSCC 2019Session 24AI / ML

A Twin-8T SRAM Computation-In-Memory Macro for Multiple-Bit CNN-Based Machine Learning

Xin Si1,2, Jia-Jing Chen1, Yung-Ning Tu1, Wei-Hsing Huang1,

该论文提出了一种基于Twin-8T SRAM的计算内存宏单元，用于多比特卷积神经网络（CNN）的机器学习，通过将乘法累加操作融入SRAM阵列，显著提升了能效。

▸提出了一种新型Twin-8T SRAM单元结构，支持多位宽数据的计算内存操作，避免了传统模拟计算中的精度损失。

▸设计了专用的计算内存宏单元架构，能够高效执行多比特CNN的乘加运算，减少了数据搬运能耗。

ISSCC 2019Session 24AI / ML

A 1Mb Multibit ReRAM Computing-In-Memory Macro with 14.6ns Parallel MAC Computing Time for CNNBased AI Edge Processors

Cheng-Xin Xue, Wei-Hao Chen, Je-Syu Liu, Jia-Fang Li, Wei-Yu Lin,

该论文提出了一种1Mb多比特ReRAM存内计算宏，用于基于CNN的AI边缘处理器。该宏实现了14.6ns的并行乘积累加计算时间，显著降低了边缘AI设备的延迟和能耗。解决了传统冯·诺依曼架构中数据搬移导致的性能瓶颈。

▸实现了1Mb多比特ReRAM存内计算宏，支持高密度非易失性存储与并行MAC运算。

▸达到14.6ns的并行MAC计算时间，显著提升CNN边缘AI推理速度。

14.6ns MAC计算时间，1Mb容量

ISSCC 2019Session 2AI / ML

A 2×30k-Spin Multichip Scalable Annealing Processor Based on a Processing-In-Memory Approach for Solving Large-Scale Combinatorial Optimization Problems

Takashi Takemoto1, Masato Hayashi2, Chihiro Yoshimura2, Masanao Yamaoka2

本文提出一种基于处理-内存（Processing-In-Memory）方法的多芯片可扩展退火处理器，实现了2×30k自旋（60k自旋）的规模，用于高效求解大规模组合优化问题。该处理器通过多芯片级联扩展自旋数量，并利用内存计算加速退火过程，从而解决NP-hard问题。

▸提出基于处理-内存的多芯片可扩展架构，将退火计算与存储单元紧密集成，减少数据搬移开销。

▸实现2×30k自旋的大规模退火处理器，通过多芯片级联可进一步扩展自旋数量，突破单芯片面积限制。

Hitachi, Sapporo, Japan Hitachi, Tokyo, Japan 1 2 The last d

ISSCC 2019Session 2AI / ML

A 40×40 Four-Neighbor Time-Based In-Memory Computing Graph ASIC Chip Featuring Wavefront Expansion and 2D Gradient Control

Luke R. Everson, Sachin S. Sapatnekar, Chris H. Kim

该论文提出了一款基于时间域计算的内存计算图ASIC芯片，用于解决单源最短路径问题。通过波前扩展和二维梯度控制，实现了高效的四邻域图处理，克服了传统顺序遍历算法的速度瓶颈。

▸采用时间域内存计算架构，将图处理映射到时间域，实现并行波前扩展。

▸引入二维梯度控制机制，优化路径搜索效率，减少冗余计算。

University of Minnesota, Minneapolis, MN

ISSCC 2019Session 15AI / ML

A 52% Peak-Efﬁciency >1W Isolated Power Transfer System Using Fully Integrated Magnetic-Core Transformer

Zhuo Yue1, Ma Shaoyu2, Zhao Tianting1, Qin Wenhui2, Zhao Yuanyuan3,

该论文提出了一种使用全集成磁芯变压器的隔离功率传输系统，实现了超过1W的功率传输和52%的峰值效率，解决了隔离电源系统中尺寸和性能的挑战。

▸采用全集成磁芯变压器，实现了高功率密度和隔离性能。

▸通过优化变压器设计和驱动电路，在1W以上功率水平达到52%的峰值效率。

Guo Yingjie1, Chen Baoxing3 Analog Devices, Beijing, China; 52% peak efficiency, >1W power transfer

ISSCC 2019Session 14AI / ML14nm CMOS

A Modular Hybrid LDO with Fast Load-Transient Response and Programmable PSRR in 14nm CMOS Featuring Dynamic Clamp Tuning and Time-Constant Compensation

Xiaosen Liu, Harish K. Krishnamurthy, Taesik Na, Sheldon Weng,

该论文提出一种采用14nm CMOS工艺的模块化混合低压差稳压器（LDO），通过动态钳位调谐技术实现了快速负载瞬态响应和可编程电源抑制比（PSRR），解决了复杂SoC中不同模块对供电电压快速稳定和噪声隔离的需求。

▸提出模块化混合LDO架构，融合数字和模拟LDO优势，兼顾快速响应和低功耗。

▸引入动态钳位调谐技术，实现可编程PSRR，适应不同噪声敏感度模块。

ISSCC 2019Session 14AI / ML

A 745pA Hybrid Asynchronous Binary-Searching and Synchronous Linear-Searching Digital LDO with 3.8×105

Dynamic Load Range, 99.99% Current Efﬁciency, and, 2mV Output Voltage Ripple

本文提出了一种混合异步二进制搜索和同步线性搜索的数字低压差稳压器（DLDO），针对物联网SoC的超低功耗和大动态负载范围需求，实现了745pA的静态电流、3.8×10^5的动态负载范围和99.99%的电流效率，以及2mV的输出电压纹波。

▸混合异步二进制搜索和同步线性搜索架构，结合了快速瞬态响应和高精度调节。

▸实现超低静态电流（745pA）的同时保持大动态负载范围（3.8×10^5），突破传统DLDO的功耗-性能折中。

745pA静态电流, 3.8×10^5动态负载范围, 99.99%电流效率, 2mV输出纹波

ISSCC 2019Session 14AI / ML

A 0.6-to-1.1V Computationally Regulated Digital LDO with 2.79-Cycle Mean Settling Time and Autonomous Runtime Gain Tracking in 65nm CMOS

Xun Sun, Akshat Boora, Wenbing Zhang, Venkata Rajesh Pamula, Visvesh Sathe

该论文提出了一种计算调节的数字低压差稳压器（LDO），通过自主运行时增益跟踪技术，实现了2.79个时钟周期的平均建立时间，解决了传统数字LDO因采样反馈和PVT裕度导致的瞬态响应慢的问题。

▸提出计算调节（Computationally Regulated）架构，通过数字计算优化控制环路，显著提升瞬态响应速度。

▸实现自主运行时增益跟踪（Autonomous Runtime Gain Track），动态调整环路增益以应对PVT变化，无需额外裕度。

2.79-cycle mean settling time

ISSCC 2019Session 14AI / ML

All-Digital Time-Domain CNN Engine Using Bidirectional Memory Delay Lines for Energy-Efﬁcient Edge Computing

Aseem Sayal, Shirin Fathima, S. S. Teja Nibhanupudi, Jaydeep P. Kulkarni

提出了一种全数字时域卷积神经网络（CNN）引擎，利用双向存储器延迟线实现低功耗乘积累加（MAC）操作，解决了边缘计算设备中CNN的能效瓶颈。

▸使用双向存储器延迟线实现全数字时域MAC计算，避免了模拟电路和ADC的功耗开销。

▸时间域计算方式通过延迟线编码权重和输入数据，实现高能效的卷积操作。

University of Texas, Austin, TX

ISSCC 2019Session 14AI / ML

A 43pJ/Cycle Non-Volatile Microcontroller with 4.7µs Shutdown/Wake-up Integrating 2.3-bit/Cell Resistive RAM and Resilience Techniques

Tony F. Wu1, Binh Q. Le1, Robert Radway1, Andrew Bartolo1,

该论文提出了一种非易失性微控制器，集成了2.3位/单元的电阻式RAM，实现了4.7微秒的关断/唤醒时间，每周期能耗仅为43皮焦，解决了物联网等应用中低能耗和快速启动的关键问题。

▸采用2.3位/单元电阻式RAM实现高密度非易失存储，降低芯片面积和成本。

▸实现4.7微秒的快速关断/唤醒时间，显著减少待机功耗，适用于能量受限的边缘设备。

43pJ/Cycle, 4.7µs shutdown/wake-up

ISSCC 2019Session 14AI / ML

A Compute SRAM with Bit-Serial Integer/Floating-Point Operations for Programmable In-Memory Vector Acceleration

Jingcheng Wang, Xiaowei Wang, Charles Eckert, Arun Subramaniyan,

该论文提出了一种基于SRAM的位串行计算内存架构，支持整数和浮点运算，用于可编程的向量加速。解决了传统模拟内存计算对PVT敏感且需要昂贵ADC/DAC转换的问题。

▸提出数字域位串行计算方式，避免模拟内存计算的PVT敏感性和ADC/DAC开销。

▸支持可编程的整数和浮点运算，提升内存计算灵活性。

Reetuparna Das, David Blaauw, Dennis Sylvester University of

ISSCC 2019Session 14AI / ML65nm

A 65nm 1.1-to-9.1TOPS/W Hybrid-Digital-Mixed-Signal Computing Platform for Accelerating Model-Based and Model-Free Swarm Robotics

Ningyuan Cao, Muya Chang, Arijit Raychowdhury

该论文提出了一种65nm工艺的混合数字-混合信号计算平台，用于加速基于模型和无模型的群体智能算法。通过混合信号处理与数字逻辑的协同设计，实现了1.1至9.1TOPS/W的能效范围，适用于群体机器人协同任务如模式形成和强化学习。

▸提出混合数字-混合信号架构，结合模拟计算的高能效与数字处理的灵活性，用于群体智能加速。

▸支持模型基和模型无关的群体算法，实现通用性，覆盖多种协同任务如路径规划和强化学习。

Georgia Institute of Technology, Atlanta, GA 1.1-9.1TOPS/W

ISSCC 2018Session 7AI / ML55nm CMOS

A 55nm Time-Domain Mixed-Signal Neuromorphic Accelerator with Stochastic Synapses and Embedded Reinforcement Learning for Autonomous Micro-Robots

Anvesha Amravati, Saad Bin Nasir, Sivaram Thangadurai, Insik Yoon, Arijit Raychowdhury

该论文提出了一种55nm工艺的时间域混合信号神经形态加速器，集成了随机突触和嵌入式强化学习，旨在实现智能体的连续学习能力。通过混合信号电路和随机突触机制，解决了传统数字加速器在强化学习任务中效率低下的问题。

▸采用时间域混合信号处理架构，结合模拟计算的高能效和数字电路的灵活性。

▸引入随机突触实现概率性权重更新，支持嵌入式强化学习算法。

Georgia Institute of Technology, Atlanta, GA Even as rapid a

ISSCC 2018Session 31AI / ML65nm CMOS

A 65nm 4Kb Algorithm-Dependent Computing-inMemory SRAM Unit-Macro with 2.3ns and 55.8TOPS/W Fully Parallel Product-Sum Operation for Binary DNN Edge Processors

Win-San Khwa1,2, Jia-Jing Chen1, Jia-Fang Li1, Xin Si3, En-Yu Yang1,

本文提出一种基于65nm工艺的4Kb算法依赖的计算存储SRAM单元宏，实现了全并行乘积和运算，解决了深度神经网络中卷积和全连接层的计算瓶颈，同时降低功耗和硬件成本，适用于边缘AI设备。

▸提出算法依赖的计算内存（Algorithm-Dependent Computing-in-Memory）架构，将乘积和运算融入SRAM阵列中，减少数据搬移功耗。

▸实现全并行乘积和操作，达到2.3ns的运算延迟和55.8TOPS/W的高能效比，显著提升推理速度与能效。

Xiaoyu Sun4, Rui Liu4, Pai-Yu Chen4, Qiang Li3, Shimeng Yu4, 2.3ns延迟，55.8TOPS/W能效

← 上一页 · 第 4/5 页 · 共 231 篇 · 下一页 →