基于非易失性存储器的神经形态计算寿命可靠性研究

1. 引言

基于非易失性存储器（NVM）的神经形态计算代表了机器学习硬件的范式转变，为基于脉冲的计算提供了显著的性能和能效提升。然而，操作相变存储器（PCM）等NVM所需的高电压会加速CMOS神经元电路的老化，威胁神经形态硬件的长期可靠性。

本工作解决了神经形态系统中寿命可靠性的关键挑战，重点关注负偏压温度不稳定性（NBTI）和时间相关介电击穿（TDDB）等失效机制。我们展示了系统级设计决策，特别是周期性恢复技术，如何在先进的机器学习应用中创建重要的可靠性与性能权衡。

核心见解

高压NVM操作加速神经元电路中CMOS器件的老化
NBTI和TDDB是影响寿命可靠性的主要失效机制
周期性恢复可在可接受的性能权衡下实现显著的可靠性改进
技术缩放加剧了神经形态硬件的可靠性挑战

2. 交叉阵列可靠性建模

2.1 神经形态计算中的NBTI问题

负偏压温度不稳定性（NBTI）发生在神经元电路中CMOS器件栅极下方的氧化物-半导体界面处捕获正电荷时。这种现象表现为漏极电流和跨导降低，以及关断电流和阈值电压增加。

CMOS器件因NBTI导致的寿命使用平均失效前时间（MTTF）量化：

$MTTF_{NBTI} = A \cdot V^{\gamma} \cdot e^{\frac{E_a}{KT}}$

其中$A$和$\gamma$是与材料相关的常数，$E_a$是激活能，$K$是玻尔兹曼常数，$T$是温度，$V$是过驱动栅极电压。

2.2 TDDB失效机制

时间相关介电击穿（TDDB）是另一个关键可靠性问题，即栅极氧化物因电应力随时间推移而击穿。在神经形态交叉阵列中，NVM操作所需的高电场会加速TDDB。

TDDB寿命模型如下：

$MTTF_{TDDB} = \tau_0 \cdot e^{\frac{G}{E_{ox}}}$

其中$\tau_0$是材料常数，$G$是场加速参数，$E_{ox}$是穿过氧化物的电场。

2.3 综合可靠性模型

神经形态硬件的整体可靠性同时考虑NBTI和TDDB失效机制。综合失效率如下：

$\lambda_{total} = \lambda_{NBTI} + \lambda_{TDDB} = \frac{1}{MTTF_{NBTI}} + \frac{1}{MTTF_{TDDB}}$

3. 实验方法

我们的实验框架使用改进的DYNAP-SE神经形态架构和基于PCM的突触交叉阵列来评估寿命可靠性。我们实现了多个机器学习基准测试，包括MNIST数字分类和语音数字识别，以评估实际工作负载下的可靠性影响。

实验设置包括：

神经元电路采用28nm CMOS技术节点
PCM突触器件，读取电压为1.8V
温度监测范围从25°C到85°C
具有可变占空比的应力-恢复循环

4. 结果与分析

4.1 可靠性与性能权衡

我们的结果展示了系统可靠性与计算性能之间的基本权衡。高压连续运行可提供最大吞吐量，但严重损害寿命可靠性。引入周期性恢复周期可显著提高MTTF，同时保持可接受的性能水平。

图1：阈值电压退化与恢复

该图显示了在交替高压（1.8V）和低压（1.2V）条件下CMOS阈值电压的应力和恢复行为。在高压应力期间，由于NBTI，阈值电压增加，而在低压空闲期间发生恢复。净退化在多个周期中累积，最终决定器件寿命。

4.2 周期性恢复的影响

实施占空比为30%的启停计算方法，与连续运行相比，MTTF提高了3.2倍，而MNIST任务的分类准确率仅降低15%。这种方法有效地平衡了可靠性问题与计算需求。

5. 技术实现

5.1 数学公式

可靠性感知调度算法优化了计算吞吐量与电路老化之间的权衡。优化问题可表述为：

$\max_{D} \quad \alpha \cdot Throughput(D) + \beta \cdot MTTF(D)$

$subject \ to: \quad D \in [0,1]$

其中$D$是占空比，$\alpha$和$\beta$是性能和可靠性目标的权重因子。

5.2 代码实现

以下是可靠性感知调度器的简化伪代码实现：

class ReliabilityAwareScheduler:
    def __init__(self, max_voltage=1.8, min_voltage=1.2):
        self.max_v = max_voltage
        self.min_v = min_voltage
        self.stress_time = 0
        
    def schedule_operation(self, computation_task, reliability_target):
        """在可靠性约束下调度计算"""
        
        # 基于可靠性目标计算最优占空比
        duty_cycle = self.calculate_optimal_duty_cycle(reliability_target)
        
        # 执行启停计算
        while computation_task.has_work():
            # 高压计算阶段
            self.apply_voltage(self.max_v)
            computation_time = duty_cycle * self.time_quantum
            self.execute_computation(computation_task, computation_time)
            self.stress_time += computation_time
            
            # 低压恢复阶段
            self.apply_voltage(self.min_v)
            recovery_time = (1 - duty_cycle) * self.time_quantum
            time.sleep(recovery_time)
            
    def calculate_optimal_duty_cycle(self, reliability_target):
        """计算满足可靠性要求的占空比"""
        # 优化算法的实现
        # 考虑NBTI和TDDB模型
        return optimized_duty_cycle

6. 未来应用与方向

可靠性感知的神经形态计算方法对边缘AI系统、自动驾驶汽车和物联网设备具有重要意义，这些应用对长期运行可靠性要求极高。未来的研究方向包括：

自适应可靠性管理：基于实时老化监测动态调整操作参数
多尺度建模：器件级可靠性模型与系统级性能优化的集成
新兴NVM技术：探索新型存储器技术（如ReRAM和MRAM）的可靠性特性
基于机器学习的可靠性：使用AI技术预测和缓解老化效应

随着神经形态计算在安全关键应用中的广泛采用，可靠性感知设计方法将变得越来越重要。将这些技术与新兴计算范式（如内存计算和近似计算）相结合，为未来研究提供了令人兴奋的机会。

7. 参考文献

M. Davies等人，“Loihi：一种具有片上学习功能的神经形态多核处理器”，IEEE Micro，2018
P. A. Merolla等人，“具有可扩展通信网络和接口的百万脉冲神经元集成电路”，Science，2014
S. K. Esser等人，“用于快速、高能效神经形态计算的卷积网络”，PNAS，2016
G. W. Burr等人，“使用非易失性存储器的神经形态计算”，Advances in Physics: X，2017
J. Zhu等人，“神经形态计算系统的可靠性评估与建模”，IEEE Transactions on Computers，2020
国际半导体技术路线图（ITRS），“新兴研究器件”，2015
Y. LeCun, Y. Bengio和G. Hinton，“深度学习”，Nature，2015

原创分析：下一代神经形态系统的可靠性挑战

本研究通过解决关键但常被忽视的长期硬件可靠性问题，为新兴的可靠神经形态计算领域做出了重要贡献。鉴于神经形态系统在边缘计算和物联网应用中的日益普及（这些应用中硬件更换不切实际），作者对NBTI和TDDB失效机制的关注尤为及时。类似于CycleGAN（Zhu等人，2017）通过引入循环一致性彻底改变了非配对图像翻译，本工作通过将可靠性视为首要设计约束而非事后考虑，引入了根本性的范式转变。

所提出的启停计算方法与生物神经系统有着有趣的相似之处，生物神经系统自然地包含休息期以维持长期功能。这种仿生视角与人脑项目的最新研究一致，强调理解生物原理对于设计稳健计算系统的重要性。使用MTTF指标对可靠性进行数学建模，为系统性能与寿命之间的权衡分析提供了量化基础。

与主要关注制造缺陷或软错误的传统可靠性方法相比，本工作对老化机制的考虑代表了更全面的系统寿命优化方法。器件物理与系统架构决策的集成呼应了其他计算领域的趋势，例如Mittal等人在GPU系统跨层可靠性建模方面的工作。然而，神经形态计算的独特挑战——特别是计算的模拟性质和对器件变化的敏感性——需要像本文所提出的专门方法。

展望未来，这一研究方向对可持续计算具有深远意义。正如国际半导体技术路线图所指出的，在先进技术节点上，可靠性问题变得越来越关键。作者的方法可以扩展到解决神经形态系统中的其他新兴可靠性挑战，例如忆阻器件的可变性或3D集成神经形态芯片中的热管理。本工作为开发能够在苛刻应用（从自动驾驶汽车到医疗植入物）中可靠运行多年的神经形态系统奠定了重要基础。