选择语言

基于非易失性存储器的神经形态计算寿命可靠性研究

分析非易失性存储器在神经形态计算中的寿命可靠性问题,重点关注NBTI和TDDB失效机制以及可靠性与性能的权衡。
hashpowertoken.org | PDF Size: 0.6 MB
评分: 4.5/5
您的评分
您已经为此文档评过分
PDF文档封面 - 基于非易失性存储器的神经形态计算寿命可靠性研究

目录

可靠性提升

3.2倍

周期性恢复带来的寿命增强

性能影响

15%

平均准确率权衡

电压应力

1.8V

导致老化的操作电压

1. 引言

基于非易失性存储器(NVM)的神经形态计算代表了机器学习硬件的范式转变,为基于脉冲的计算提供了显著的性能和能效提升。然而,操作相变存储器(PCM)等NVM所需的高电压会加速CMOS神经元电路的老化,威胁神经形态硬件的长期可靠性。

本工作解决了神经形态系统中寿命可靠性的关键挑战,重点关注负偏压温度不稳定性(NBTI)和时间相关介电击穿(TDDB)等失效机制。我们展示了系统级设计决策,特别是周期性恢复技术,如何在先进的机器学习应用中创建重要的可靠性与性能权衡。

核心见解

  • 高压NVM操作加速神经元电路中CMOS器件的老化
  • NBTI和TDDB是影响寿命可靠性的主要失效机制
  • 周期性恢复可在可接受的性能权衡下实现显著的可靠性改进
  • 技术缩放加剧了神经形态硬件的可靠性挑战

2. 交叉阵列可靠性建模

2.1 神经形态计算中的NBTI问题

负偏压温度不稳定性(NBTI)发生在神经元电路中CMOS器件栅极下方的氧化物-半导体界面处捕获正电荷时。这种现象表现为漏极电流和跨导降低,以及关断电流和阈值电压增加。

CMOS器件因NBTI导致的寿命使用平均失效前时间(MTTF)量化:

$MTTF_{NBTI} = A \cdot V^{\gamma} \cdot e^{\frac{E_a}{KT}}$

其中$A$和$\gamma$是与材料相关的常数,$E_a$是激活能,$K$是玻尔兹曼常数,$T$是温度,$V$是过驱动栅极电压。

2.2 TDDB失效机制

时间相关介电击穿(TDDB)是另一个关键可靠性问题,即栅极氧化物因电应力随时间推移而击穿。在神经形态交叉阵列中,NVM操作所需的高电场会加速TDDB。

TDDB寿命模型如下:

$MTTF_{TDDB} = \tau_0 \cdot e^{\frac{G}{E_{ox}}}$

其中$\tau_0$是材料常数,$G$是场加速参数,$E_{ox}$是穿过氧化物的电场。

2.3 综合可靠性模型

神经形态硬件的整体可靠性同时考虑NBTI和TDDB失效机制。综合失效率如下:

$\lambda_{total} = \lambda_{NBTI} + \lambda_{TDDB} = \frac{1}{MTTF_{NBTI}} + \frac{1}{MTTF_{TDDB}}$

3. 实验方法

我们的实验框架使用改进的DYNAP-SE神经形态架构和基于PCM的突触交叉阵列来评估寿命可靠性。我们实现了多个机器学习基准测试,包括MNIST数字分类和语音数字识别,以评估实际工作负载下的可靠性影响。

实验设置包括:

  • 神经元电路采用28nm CMOS技术节点
  • PCM突触器件,读取电压为1.8V
  • 温度监测范围从25°C到85°C
  • 具有可变占空比的应力-恢复循环

4. 结果与分析

4.1 可靠性与性能权衡

我们的结果展示了系统可靠性与计算性能之间的基本权衡。高压连续运行可提供最大吞吐量,但严重损害寿命可靠性。引入周期性恢复周期可显著提高MTTF,同时保持可接受的性能水平。

图1:阈值电压退化与恢复

该图显示了在交替高压(1.8V)和低压(1.2V)条件下CMOS阈值电压的应力和恢复行为。在高压应力期间,由于NBTI,阈值电压增加,而在低压空闲期间发生恢复。净退化在多个周期中累积,最终决定器件寿命。

4.2 周期性恢复的影响

实施占空比为30%的启停计算方法,与连续运行相比,MTTF提高了3.2倍,而MNIST任务的分类准确率仅降低15%。这种方法有效地平衡了可靠性问题与计算需求。

5. 技术实现

5.1 数学公式

可靠性感知调度算法优化了计算吞吐量与电路老化之间的权衡。优化问题可表述为:

$\max_{D} \quad \alpha \cdot Throughput(D) + \beta \cdot MTTF(D)$

$subject \ to: \quad D \in [0,1]$

其中$D$是占空比,$\alpha$和$\beta$是性能和可靠性目标的权重因子。

5.2 代码实现

以下是可靠性感知调度器的简化伪代码实现:

class ReliabilityAwareScheduler:
    def __init__(self, max_voltage=1.8, min_voltage=1.2):
        self.max_v = max_voltage
        self.min_v = min_voltage
        self.stress_time = 0
        
    def schedule_operation(self, computation_task, reliability_target):
        """在可靠性约束下调度计算"""
        
        # 基于可靠性目标计算最优占空比
        duty_cycle = self.calculate_optimal_duty_cycle(reliability_target)
        
        # 执行启停计算
        while computation_task.has_work():
            # 高压计算阶段
            self.apply_voltage(self.max_v)
            computation_time = duty_cycle * self.time_quantum
            self.execute_computation(computation_task, computation_time)
            self.stress_time += computation_time
            
            # 低压恢复阶段
            self.apply_voltage(self.min_v)
            recovery_time = (1 - duty_cycle) * self.time_quantum
            time.sleep(recovery_time)
            
    def calculate_optimal_duty_cycle(self, reliability_target):
        """计算满足可靠性要求的占空比"""
        # 优化算法的实现
        # 考虑NBTI和TDDB模型
        return optimized_duty_cycle

6. 未来应用与方向

可靠性感知的神经形态计算方法对边缘AI系统、自动驾驶汽车和物联网设备具有重要意义,这些应用对长期运行可靠性要求极高。未来的研究方向包括:

  • 自适应可靠性管理:基于实时老化监测动态调整操作参数
  • 多尺度建模:器件级可靠性模型与系统级性能优化的集成
  • 新兴NVM技术:探索新型存储器技术(如ReRAM和MRAM)的可靠性特性
  • 基于机器学习的可靠性:使用AI技术预测和缓解老化效应

随着神经形态计算在安全关键应用中的广泛采用,可靠性感知设计方法将变得越来越重要。将这些技术与新兴计算范式(如内存计算和近似计算)相结合,为未来研究提供了令人兴奋的机会。

7. 参考文献

  1. M. Davies等人,“Loihi:一种具有片上学习功能的神经形态多核处理器”,IEEE Micro,2018
  2. P. A. Merolla等人,“具有可扩展通信网络和接口的百万脉冲神经元集成电路”,Science,2014
  3. S. K. Esser等人,“用于快速、高能效神经形态计算的卷积网络”,PNAS,2016
  4. G. W. Burr等人,“使用非易失性存储器的神经形态计算”,Advances in Physics: X,2017
  5. J. Zhu等人,“神经形态计算系统的可靠性评估与建模”,IEEE Transactions on Computers,2020
  6. 国际半导体技术路线图(ITRS),“新兴研究器件”,2015
  7. Y. LeCun, Y. Bengio和G. Hinton,“深度学习”,Nature,2015

原创分析:下一代神经形态系统的可靠性挑战

本研究通过解决关键但常被忽视的长期硬件可靠性问题,为新兴的可靠神经形态计算领域做出了重要贡献。鉴于神经形态系统在边缘计算和物联网应用中的日益普及(这些应用中硬件更换不切实际),作者对NBTI和TDDB失效机制的关注尤为及时。类似于CycleGAN(Zhu等人,2017)通过引入循环一致性彻底改变了非配对图像翻译,本工作通过将可靠性视为首要设计约束而非事后考虑,引入了根本性的范式转变。

所提出的启停计算方法与生物神经系统有着有趣的相似之处,生物神经系统自然地包含休息期以维持长期功能。这种仿生视角与人脑项目的最新研究一致,强调理解生物原理对于设计稳健计算系统的重要性。使用MTTF指标对可靠性进行数学建模,为系统性能与寿命之间的权衡分析提供了量化基础。

与主要关注制造缺陷或软错误的传统可靠性方法相比,本工作对老化机制的考虑代表了更全面的系统寿命优化方法。器件物理与系统架构决策的集成呼应了其他计算领域的趋势,例如Mittal等人在GPU系统跨层可靠性建模方面的工作。然而,神经形态计算的独特挑战——特别是计算的模拟性质和对器件变化的敏感性——需要像本文所提出的专门方法。

展望未来,这一研究方向对可持续计算具有深远意义。正如国际半导体技术路线图所指出的,在先进技术节点上,可靠性问题变得越来越关键。作者的方法可以扩展到解决神经形态系统中的其他新兴可靠性挑战,例如忆阻器件的可变性或3D集成神经形态芯片中的热管理。本工作为开发能够在苛刻应用(从自动驾驶汽车到医疗植入物)中可靠运行多年的神经形态系统奠定了重要基础。