目录
可靠性提升
3.2倍
周期性恢复带来的寿命增强
性能影响
15%
平均准确率权衡
电压应力
1.8V
导致老化的操作电压
1. 引言
基于非易失性存储器(NVM)的神经形态计算代表了机器学习硬件的范式转变,为基于脉冲的计算提供了显著的性能和能效提升。然而,操作相变存储器(PCM)等NVM所需的高电压会加速CMOS神经元电路的老化,威胁神经形态硬件的长期可靠性。
本工作解决了神经形态系统中寿命可靠性的关键挑战,重点关注负偏压温度不稳定性(NBTI)和时间相关介电击穿(TDDB)等失效机制。我们展示了系统级设计决策,特别是周期性恢复技术,如何在先进的机器学习应用中创建重要的可靠性与性能权衡。
核心见解
- 高压NVM操作加速神经元电路中CMOS器件的老化
- NBTI和TDDB是影响寿命可靠性的主要失效机制
- 周期性恢复可在可接受的性能权衡下实现显著的可靠性改进
- 技术缩放加剧了神经形态硬件的可靠性挑战
2. 交叉阵列可靠性建模
2.1 神经形态计算中的NBTI问题
负偏压温度不稳定性(NBTI)发生在神经元电路中CMOS器件栅极下方的氧化物-半导体界面处捕获正电荷时。这种现象表现为漏极电流和跨导降低,以及关断电流和阈值电压增加。
CMOS器件因NBTI导致的寿命使用平均失效前时间(MTTF)量化:
$MTTF_{NBTI} = A \cdot V^{\gamma} \cdot e^{\frac{E_a}{KT}}$
其中$A$和$\gamma$是与材料相关的常数,$E_a$是激活能,$K$是玻尔兹曼常数,$T$是温度,$V$是过驱动栅极电压。
2.2 TDDB失效机制
时间相关介电击穿(TDDB)是另一个关键可靠性问题,即栅极氧化物因电应力随时间推移而击穿。在神经形态交叉阵列中,NVM操作所需的高电场会加速TDDB。
TDDB寿命模型如下:
$MTTF_{TDDB} = \tau_0 \cdot e^{\frac{G}{E_{ox}}}$
其中$\tau_0$是材料常数,$G$是场加速参数,$E_{ox}$是穿过氧化物的电场。
2.3 综合可靠性模型
神经形态硬件的整体可靠性同时考虑NBTI和TDDB失效机制。综合失效率如下:
$\lambda_{total} = \lambda_{NBTI} + \lambda_{TDDB} = \frac{1}{MTTF_{NBTI}} + \frac{1}{MTTF_{TDDB}}$
3. 实验方法
我们的实验框架使用改进的DYNAP-SE神经形态架构和基于PCM的突触交叉阵列来评估寿命可靠性。我们实现了多个机器学习基准测试,包括MNIST数字分类和语音数字识别,以评估实际工作负载下的可靠性影响。
实验设置包括:
- 神经元电路采用28nm CMOS技术节点
- PCM突触器件,读取电压为1.8V
- 温度监测范围从25°C到85°C
- 具有可变占空比的应力-恢复循环
4. 结果与分析
4.1 可靠性与性能权衡
我们的结果展示了系统可靠性与计算性能之间的基本权衡。高压连续运行可提供最大吞吐量,但严重损害寿命可靠性。引入周期性恢复周期可显著提高MTTF,同时保持可接受的性能水平。
图1:阈值电压退化与恢复
该图显示了在交替高压(1.8V)和低压(1.2V)条件下CMOS阈值电压的应力和恢复行为。在高压应力期间,由于NBTI,阈值电压增加,而在低压空闲期间发生恢复。净退化在多个周期中累积,最终决定器件寿命。
4.2 周期性恢复的影响
实施占空比为30%的启停计算方法,与连续运行相比,MTTF提高了3.2倍,而MNIST任务的分类准确率仅降低15%。这种方法有效地平衡了可靠性问题与计算需求。
5. 技术实现
5.1 数学公式
可靠性感知调度算法优化了计算吞吐量与电路老化之间的权衡。优化问题可表述为:
$\max_{D} \quad \alpha \cdot Throughput(D) + \beta \cdot MTTF(D)$
$subject \ to: \quad D \in [0,1]$
其中$D$是占空比,$\alpha$和$\beta$是性能和可靠性目标的权重因子。
5.2 代码实现
以下是可靠性感知调度器的简化伪代码实现:
class ReliabilityAwareScheduler:
def __init__(self, max_voltage=1.8, min_voltage=1.2):
self.max_v = max_voltage
self.min_v = min_voltage
self.stress_time = 0
def schedule_operation(self, computation_task, reliability_target):
"""在可靠性约束下调度计算"""
# 基于可靠性目标计算最优占空比
duty_cycle = self.calculate_optimal_duty_cycle(reliability_target)
# 执行启停计算
while computation_task.has_work():
# 高压计算阶段
self.apply_voltage(self.max_v)
computation_time = duty_cycle * self.time_quantum
self.execute_computation(computation_task, computation_time)
self.stress_time += computation_time
# 低压恢复阶段
self.apply_voltage(self.min_v)
recovery_time = (1 - duty_cycle) * self.time_quantum
time.sleep(recovery_time)
def calculate_optimal_duty_cycle(self, reliability_target):
"""计算满足可靠性要求的占空比"""
# 优化算法的实现
# 考虑NBTI和TDDB模型
return optimized_duty_cycle
6. 未来应用与方向
可靠性感知的神经形态计算方法对边缘AI系统、自动驾驶汽车和物联网设备具有重要意义,这些应用对长期运行可靠性要求极高。未来的研究方向包括:
- 自适应可靠性管理:基于实时老化监测动态调整操作参数
- 多尺度建模:器件级可靠性模型与系统级性能优化的集成
- 新兴NVM技术:探索新型存储器技术(如ReRAM和MRAM)的可靠性特性
- 基于机器学习的可靠性:使用AI技术预测和缓解老化效应
随着神经形态计算在安全关键应用中的广泛采用,可靠性感知设计方法将变得越来越重要。将这些技术与新兴计算范式(如内存计算和近似计算)相结合,为未来研究提供了令人兴奋的机会。
7. 参考文献
- M. Davies等人,“Loihi:一种具有片上学习功能的神经形态多核处理器”,IEEE Micro,2018
- P. A. Merolla等人,“具有可扩展通信网络和接口的百万脉冲神经元集成电路”,Science,2014
- S. K. Esser等人,“用于快速、高能效神经形态计算的卷积网络”,PNAS,2016
- G. W. Burr等人,“使用非易失性存储器的神经形态计算”,Advances in Physics: X,2017
- J. Zhu等人,“神经形态计算系统的可靠性评估与建模”,IEEE Transactions on Computers,2020
- 国际半导体技术路线图(ITRS),“新兴研究器件”,2015
- Y. LeCun, Y. Bengio和G. Hinton,“深度学习”,Nature,2015
原创分析:下一代神经形态系统的可靠性挑战
本研究通过解决关键但常被忽视的长期硬件可靠性问题,为新兴的可靠神经形态计算领域做出了重要贡献。鉴于神经形态系统在边缘计算和物联网应用中的日益普及(这些应用中硬件更换不切实际),作者对NBTI和TDDB失效机制的关注尤为及时。类似于CycleGAN(Zhu等人,2017)通过引入循环一致性彻底改变了非配对图像翻译,本工作通过将可靠性视为首要设计约束而非事后考虑,引入了根本性的范式转变。
所提出的启停计算方法与生物神经系统有着有趣的相似之处,生物神经系统自然地包含休息期以维持长期功能。这种仿生视角与人脑项目的最新研究一致,强调理解生物原理对于设计稳健计算系统的重要性。使用MTTF指标对可靠性进行数学建模,为系统性能与寿命之间的权衡分析提供了量化基础。
与主要关注制造缺陷或软错误的传统可靠性方法相比,本工作对老化机制的考虑代表了更全面的系统寿命优化方法。器件物理与系统架构决策的集成呼应了其他计算领域的趋势,例如Mittal等人在GPU系统跨层可靠性建模方面的工作。然而,神经形态计算的独特挑战——特别是计算的模拟性质和对器件变化的敏感性——需要像本文所提出的专门方法。
展望未来,这一研究方向对可持续计算具有深远意义。正如国际半导体技术路线图所指出的,在先进技术节点上,可靠性问题变得越来越关键。作者的方法可以扩展到解决神经形态系统中的其他新兴可靠性挑战,例如忆阻器件的可变性或3D集成神经形态芯片中的热管理。本工作为开发能够在苛刻应用(从自动驾驶汽车到医疗植入物)中可靠运行多年的神经形态系统奠定了重要基础。