Reliability Testing作为Solid State Drive(简称固态硬盘)SIT测试阶段最重要的测试项,推动着产品质量的不断提升。UBER、Endurance、Retention、Temperature Extreme、MTBF等可靠性指标值也作为产品竞争力的一部分体现在产品规格书中。
几个基本概念:
Failure Rate:failure Rateλ,λ定义为失效个数r与n测试样品在指定测试条件下运行t时间的比值,即λ= r / n*t 。针对电子产品,通常我们用FIT(Failure In Time)体现,如1 FIT代表运行10^9小时,出现1个失效设备。
例子:4000个测试设备,同时持续运行了5000个小时,最终发现有2个设备发生故障,则通过计算可以得知λ=2/4000*5000h=1*10^-7 h ,则λ=100 FIT
浴盆曲线:又称失效率曲线,指产品从投入到报废为止的整个生命周期内,其可靠性的变化呈现一定的规律,大致分为早期失效期、随机失效期、损耗失效期。我们通常描述的FIT实际是指的是随机失效期(明确失效周期可以指导我们正确定义Ea值,进而减少实际误差)
MTBF:即平均故障间隔时间,英文全称是“Mean Time Between Failure”,指新的产品在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。MTBF越长表示可靠性越高,保持正确工作能力越强,单位为“小时”。通常也指相邻两次故障之间的平均工作时间,也称为平均故障间隔。它仅适用于可维修产品(不可维修产品我们用MTTF定义)。当产品的寿命服从指数分布时,失效率的倒数表示两个失效之间的时间间隔。λ=1/MTBF
例子:某产品SSD MTBF值标称为150万小时,保修5年;150万小时约为171年,并不是说该产品SSD每块盘均能工作171年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/171年,即该固态硬盘的平均年故障率约为0.6%,一年内,平均1000块固态硬盘有6块会出故障。
综上所述,FIT/MTBF值是产品设计时要考虑的重要参数,测试工程师经常使用各种不同的方法与标准来估计产品的MTBF值,其目的就是为了找出产品设计中的薄弱环节。
如何测?
MTBF有三种测试方法,分别是:预测法、实验法、实测法,三种方法都可以完成MTBF的测试需求。
MTBF预测法:
1、标准局限性:目前最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于军工产品和民用产品。其中,MIL-HDBK-217是由美国国防部可靠性中心及Rome实验室提出并成为行业标准,专门用于军工产品MTBF值计算,GJB/Z299B是我国军用标准;而Bellcore是由AT&TBell实验室提出并成为商用电子产品MTBF值计算的行业标准。MIL-HDBK-217据说95年发布一版后就不再维护更新了,所以标准本身也有局限性
2、预测法局限性:预测法主要采用应力分析法和元件计数法分析产品的MTBF。主要考虑的是产品中每个器件的失效率;影响因素包括:πE 环境因素Environment factor) 、πQ 品质因素:(Quality factor)、πA 应用因素:(Application factor)、πC 复杂性因素:(Quality factor)、πL 累计因素:(Learning factor)、πS 电应力因素:(Electrical Stress factor)、πT 温度因素:(Temperature factor)等。受各种因素影响,以及计算参数的选择上受计算人员对系数的掌握和了解程度影响很大,因此和实际值相比会有很大的差异。不推荐。
MTBF实测法:
顾名思义,就是直接测试,最终统计结果,比如MTBF比较小的产品可以按照这种方法直接验证,假如产品手册宣称150万小时,这种方法的确不太可行。
MTBF 实验法:
这种方法是我个人比较推荐的一种方法,经过合理的测试方法,参考准确的测试数据评估出来的MTBF也是比较准确的,实验法大致也分:定时截尾试验:指实验到规定的时间终止。定数截尾试验:指实验到出现规定的故障数或失效数时而终止。因为温度是我们产品唯一的加速因素,所以这里我引入了加速因子(AF:Accelerate Factor),加速因子AF即为产品在正常使用条件下的寿命和高测试应力条件下的寿命的比值。一般采用Arrhenius Model(阿氏模型),AF=e{ Ea/Kb*[1/Tn-1/Ta]} (画圈圈,在我们Reliability Testing中会经常用到这个AF)。
Ea:活化能,单位eV,活化能高,表示对温度变化影响比较显著。当试验的温度与使用温度差距范围不大时,Ea可设为常数。一般电子产品在早期失效期的Ea为0.2~0.6eV,随机失效期的Ea趋近于1.0eV;损耗失效期的Ea大于1.0eV。后面例子我用到Ea值=1.1
Kb:Boltzmann Constant波茲曼常数,(0.00008623eV/°k)
Tn:正常操作条件绝对温度(°k)
Ta:加速寿命试验条件绝对温度(°k)
E:2.718
Confidence Level:信心度 ,一般为60%,α=0.4;90%,α=0.1
UCL :Unit Confidence Level,信心系数。UCL=X^2(α,2r+2),使用卡方公式作为对MTBF准确性的要求,因此冒险率越小,X^2就越大,计算的MTBF越小,可信度越高。同时失效数r越大,不良率就高了,X^2自然也变大,在同样的时间下MTBF就会变小。该值可以直接参考JESD47,附表为Confidence Level =60%时的UCL
亮剑公式:
MTBF=Total Test Time*AF/UCL
Total Test Time=(Sample Size) *(Test Days)*(Power On Hours/Day)
例:100块样品,信心度为0.6,用户使用温度为30度,测试温度为55度。假设在测试60天后,有1块盘失效,请计算MTBF值。
(我自己做了一个专门计算AF的表,只需要输入正常使用温度和压力温度方可计算出AF值,根据上述描述可以算的AF=24.78)
AF= AF=e{ Ea/Kb*[1/Tn-1/Ta]}=24.78
MTBF=100*60*24*24.78/2.03≈170W 小时
几个基本概念:
Failure Rate:failure Rateλ,λ定义为失效个数r与n测试样品在指定测试条件下运行t时间的比值,即λ= r / n*t 。针对电子产品,通常我们用FIT(Failure In Time)体现,如1 FIT代表运行10^9小时,出现1个失效设备。
例子:4000个测试设备,同时持续运行了5000个小时,最终发现有2个设备发生故障,则通过计算可以得知λ=2/4000*5000h=1*10^-7 h ,则λ=100 FIT
浴盆曲线:又称失效率曲线,指产品从投入到报废为止的整个生命周期内,其可靠性的变化呈现一定的规律,大致分为早期失效期、随机失效期、损耗失效期。我们通常描述的FIT实际是指的是随机失效期(明确失效周期可以指导我们正确定义Ea值,进而减少实际误差)
MTBF:即平均故障间隔时间,英文全称是“Mean Time Between Failure”,指新的产品在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。MTBF越长表示可靠性越高,保持正确工作能力越强,单位为“小时”。通常也指相邻两次故障之间的平均工作时间,也称为平均故障间隔。它仅适用于可维修产品(不可维修产品我们用MTTF定义)。当产品的寿命服从指数分布时,失效率的倒数表示两个失效之间的时间间隔。λ=1/MTBF
例子:某产品SSD MTBF值标称为150万小时,保修5年;150万小时约为171年,并不是说该产品SSD每块盘均能工作171年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/171年,即该固态硬盘的平均年故障率约为0.6%,一年内,平均1000块固态硬盘有6块会出故障。
综上所述,FIT/MTBF值是产品设计时要考虑的重要参数,测试工程师经常使用各种不同的方法与标准来估计产品的MTBF值,其目的就是为了找出产品设计中的薄弱环节。
如何测?
MTBF有三种测试方法,分别是:预测法、实验法、实测法,三种方法都可以完成MTBF的测试需求。
MTBF预测法:
1、标准局限性:目前最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于军工产品和民用产品。其中,MIL-HDBK-217是由美国国防部可靠性中心及Rome实验室提出并成为行业标准,专门用于军工产品MTBF值计算,GJB/Z299B是我国军用标准;而Bellcore是由AT&TBell实验室提出并成为商用电子产品MTBF值计算的行业标准。MIL-HDBK-217据说95年发布一版后就不再维护更新了,所以标准本身也有局限性
2、预测法局限性:预测法主要采用应力分析法和元件计数法分析产品的MTBF。主要考虑的是产品中每个器件的失效率;影响因素包括:πE 环境因素Environment factor) 、πQ 品质因素:(Quality factor)、πA 应用因素:(Application factor)、πC 复杂性因素:(Quality factor)、πL 累计因素:(Learning factor)、πS 电应力因素:(Electrical Stress factor)、πT 温度因素:(Temperature factor)等。受各种因素影响,以及计算参数的选择上受计算人员对系数的掌握和了解程度影响很大,因此和实际值相比会有很大的差异。不推荐。
MTBF实测法:
顾名思义,就是直接测试,最终统计结果,比如MTBF比较小的产品可以按照这种方法直接验证,假如产品手册宣称150万小时,这种方法的确不太可行。
MTBF 实验法:
这种方法是我个人比较推荐的一种方法,经过合理的测试方法,参考准确的测试数据评估出来的MTBF也是比较准确的,实验法大致也分:定时截尾试验:指实验到规定的时间终止。定数截尾试验:指实验到出现规定的故障数或失效数时而终止。因为温度是我们产品唯一的加速因素,所以这里我引入了加速因子(AF:Accelerate Factor),加速因子AF即为产品在正常使用条件下的寿命和高测试应力条件下的寿命的比值。一般采用Arrhenius Model(阿氏模型),AF=e{ Ea/Kb*[1/Tn-1/Ta]} (画圈圈,在我们Reliability Testing中会经常用到这个AF)。
Ea:活化能,单位eV,活化能高,表示对温度变化影响比较显著。当试验的温度与使用温度差距范围不大时,Ea可设为常数。一般电子产品在早期失效期的Ea为0.2~0.6eV,随机失效期的Ea趋近于1.0eV;损耗失效期的Ea大于1.0eV。后面例子我用到Ea值=1.1
Kb:Boltzmann Constant波茲曼常数,(0.00008623eV/°k)
Tn:正常操作条件绝对温度(°k)
Ta:加速寿命试验条件绝对温度(°k)
E:2.718
Confidence Level:信心度 ,一般为60%,α=0.4;90%,α=0.1
UCL :Unit Confidence Level,信心系数。UCL=X^2(α,2r+2),使用卡方公式作为对MTBF准确性的要求,因此冒险率越小,X^2就越大,计算的MTBF越小,可信度越高。同时失效数r越大,不良率就高了,X^2自然也变大,在同样的时间下MTBF就会变小。该值可以直接参考JESD47,附表为Confidence Level =60%时的UCL
亮剑公式:
MTBF=Total Test Time*AF/UCL
Total Test Time=(Sample Size) *(Test Days)*(Power On Hours/Day)
例:100块样品,信心度为0.6,用户使用温度为30度,测试温度为55度。假设在测试60天后,有1块盘失效,请计算MTBF值。
(我自己做了一个专门计算AF的表,只需要输入正常使用温度和压力温度方可计算出AF值,根据上述描述可以算的AF=24.78)
AF= AF=e{ Ea/Kb*[1/Tn-1/Ta]}=24.78
MTBF=100*60*24*24.78/2.03≈170W 小时