硬件系统的可靠性设计(上)
Posted 硬件十万个为什么
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了硬件系统的可靠性设计(上)相关的知识,希望对你有一定的参考价值。
目录
1 可靠性概念
1.1 失效率
1.2 可靠度
1.3 不可靠度
1.4 平均无故障时间
1.5 可靠性指标间的关系
2 可靠性模型
2.1 串联系统
2.2 并联系统
2.3 混合系统
2.4 提高可靠性的方法
3 可靠性设计方法
3.1 元器件
3.2 降额设计
3.3 冗余设计
3.4 电磁兼容设计
3.5 故障自动检测与诊断
3.6 软件可靠性技术
3.7 失效保险技术
3.8 热设计
3.9 EMC设计
3.10 可靠性指标分配原则
4 常用器件的可靠性及选择
4.1 元器件失效特性
4.2 元器件失效机理
4.3 元器件选择
4.4 电阻
4.5 电容
4.6 二极管
4.7 光耦合器
5 电路设计
5.1 电流倒灌
5.2 热插拔设计
5.3 过流保护
5.4 反射波干扰
5.5 电源干扰
5.6 静电干扰
5.7 上电复位
5.8 时钟信号的驱动
5.9 时钟信号的匹配方法
6 PCB设计
6.1 布线
6.2 去耦电容
7 系统可靠性测试
7.1 环境适应性测试
7.2 EMC测试
7.3 其它测试
1 可靠性概念
系统的可靠性是由多种因素决定的,影响系统可靠、安全运行的主要因素来自于系统内部和外部的各种电气干扰,以及系统结构设计、元器件选择、安装、制造工艺和外部环境条件等。可靠性的高低涉及产品活动的方方面面,包括元器件采购、检验、设备设计、生产、工程安装、维护等各个环节。
在电子产品中,影响产品可靠性的一个很重要的因素是干扰问题,所以提高系统的抗干扰能力是产品设计过程中考虑的重要课题。
干扰对系统造成的后果主要表现在以下几方面:
Ø 数据采集错误
Ø 控制状态改变
Ø 程序运行失常
Ø 系统运行不稳定
可靠性是描述系统长期稳定、正常运行能力的一个通用概念,也是产品质量在时间方面的特征表示。可靠性又是一个统计的概念,表示在某一时间内产品或系统稳定正常完成预定功能指标的概率。
可靠性的定义是指产品或系统在规定条件下和规定时间内完成规定功能的能力。例如,一台计算机在室内有空调的条件下,使用3000小时不出故障的可能性为70%,即意味着在3000小时内无故障的概率为70%。可靠性最集中反映了某产品或系统的质量指标。
描述可靠性的定量指标有可靠度、失效率、平均无故障时间等。
1.1 失效率
失效率又称为故障率,指工作到某一时刻尚未失效的产品或系统在该时刻后单位时间内发生失效的概率。
数字电路以及其它电子产品,在其有效寿命期间内,如果它的失效率是由电子元器件、集成电路芯片的故障所引起,则失效率为常数。这是因为经过老化筛选后的电子元器件、集成电路芯片已进入偶发故障期。在这一时期内,它们的故障是随机均匀分布的,故故障率为一个常数。由电子元器件、集成电路芯片构成的整机总是比电子元器件、集成电路芯片先进入损耗故障期。
1 可靠性设计方法
1.1 元器件
元件、器件是构成系统的基本部件,元器件的性能与可靠性是系统整体性能与可靠性的基础。降低电子元器件的故障率是由其生产厂家来保证的。作为设计与使用者,主要是保证所选用的元器件的质量或可靠性指标满足设计的要求。
n 把握元器件的选型、购买、运输、储存
元器件的质量主要由生产厂家的技术、工艺以及质量管理体系保证。应选用有质量信誉的厂家的产品,一旦选定,不应轻易更换,尽量避免在同一台设备中使用不同厂家的同一型号的元器件。
元器件的运输、储存要按相关要求进行,对于存放时间较长的元器件,在使用前需要仔细检测。
n 老化、筛选、测试
元器件的老化测试一般在生产前进行,在此阶段淘汰那些质量不佳的产
品。老化处理的时间长短与所用元件量、型号、可靠性要求有关,一般为24小时或48小时。老化时所施加的电气应力(电压或电流等)应等于或略高于额定值,常选取额定值的110%~120%。老化后淘汰那些功耗偏大、性能指标明显变化或不稳定的元器件。
1.2 降额设计
降额设计是使电子元器件的工作应力适当低于其规定的额定值,从而达到降低基本故障率,保证系统可靠性的目的。降额设计是电子产品可靠性设计中的最常用的方法。
不同的电子元器件所要考虑的应力因素是不一样的,有的是电压,有的是电流,有的是温度,有的是频率,有的是振动等等。
对电容的耐压及频率特性,电阻的功率,电感的电流及频率特性,二极管、三极管、可控硅、运放、驱动器、门电路等器件的结电流、结温或扇出系数,电源的开关和主供电源线缆的耐电压/电流和耐温性能,信号线缆的频率特性,还有散热器、接插件、模块电源等器件的使用要求进行降额设计。通常,根据降额幅度的大小可分为一、二、三级降额,一级降额((实际承受应力)/(器件额定应力) < 50%的降额)在技术设计上最容易实现,降额的效果也最好,但存在成本过高的问题;二级降额(70%左右的降额)在技术设计上也比较容易实现,降额的效果也很好,并且成本适中;三级降额在技术实现上要仔细推敲,必要时要通过系统设计采取一些补偿措施,才能保证降额效果的实现,有一定难度,但三级降额的成本最低。一般说来,建议使用二级降额设计方法,在保证降额设计取得良好效果的同时,技术实现难度和成本都适中。对于涉及到频率特性的器件的降额要谨慎处理。
1.3 冗余设计
冗余技术也称为容错技术或故障掩盖技术,它是通过增加完成同一功能的并联或备用单元(包括硬件单元或软件单元)数目来提高系统可靠性的一种设计方法。如在电路设计中,对那些容易产生短路故障的单元,以串联形式复制;对那些容易产生开路故障的单元,以并联形式复制。
冗余设计并非适用于所有的场合,一般在低层次和关键环节的情况下使用可获得较好的效果。同时,还需注意,某些冗余技术的采用需增加若干故障检测和冗余通道切换装置,它们的失效率在远低于受控部分的失效率时,才能发挥冗余技术的优越性。
冗余设计的主要任务是:
1)确定冗余等级;
2)选定冗余类型;
3)确定冗余配置方案;
4)确定冗余管理方案。
冗余技术主要包括硬件冗余、软件冗余、信息冗余、时间冗余等。
n 硬件冗余
硬件冗余是采用增加硬件的方式来实现,当系统发生故障时,将备份的硬件顶替上去,使系统仍然能够正常工作。在电路级、功能单元级、部件级和系统级都可以采用硬件冗余结构。如交换机系统中的处理机系统、时钟系统等就是采用的硬件冗余结构。
n 软件冗余
实现软件冗余的主要方法有:指令冗余技术、软件陷阱技术和软件看门
狗技术等。
n 信息冗余
对于重要的文件或数据复制一份或多份,并存储于不同的空间,当某一区间或某一备份被破坏后,自动从其它部分重新复制,使文件或数据得以恢复。
n 时间冗余
重复执行某一操作或某一程序,并将执行结果与前一次的结果进行比较来确认系统工作是否正常。这种方法是以时间为代价换取可靠性,称为时间冗余技术或重复检测技术。在实际应用中可以采用三中取二或五中取三等方式。
1.4 电磁兼容设计
电磁兼容性是指系统在电磁环境中运行的适应性,即在电磁环境下能保持完成规定功能的能力。电磁兼容性设计的目的是使系统既不受外部电磁干扰的影响,也不对其它电子设备产生电磁干扰。
抗电磁干扰的硬件措施主要有滤波技术、去耦电路、屏蔽技术、接地技术等;软件措施主要有数字滤波、软件冗余、程序运行监视及故障自动恢复技术等。
1.5 故障自动检测与诊断
为了判定系统是否工作正常或某项功能是否正常、及时指出故障部位,缩短维修时间,可以有计划地对系统进行在线测试和诊断,以便及时排除故障,缩小故障带来的影响。
1.6 软件可靠性技术
为了提高软件的可靠性,应尽量将软件规范化、标准化、模块化,尽可能把复杂的问题化成若干较为简单明确的小任务。把一个大程序分成若干独立的小模块,有助于及时发现设计中的不合理部分,而且检查和测试几个小模块要比检查和测试大程序方便的多。
1.7 失效保险技术
有些重要的系统,一旦发生故障,希望整个系统处于安全或保险状态。如交换机系统的各功能电路板的电源设计,当某块电路板由于某种原因过流时,希望不影响同一机框内其它电路板的使用,通常在功能电路板内采取过流保护措施,使其电源与机框脱离。
1.8 热设计
确定产品的运行环境温度指标,确定设备内部及关键元器件的温升限值。一般说来,元器件工作时的温度上升与环境温度没有关系,而民用级别的元器件的允许工作温度大多在70~85℃,为了保证在极限最高环境温度(50℃左右)下元器件的工作温度还在其允许温度范围内并有相当的冗余度,设备内部及元器件的温升设计指标定在15℃左右比较合适。在硬件单板设计时,首先应该明确区分易发热器件和温度敏感器件(即随着温度的变化器件容易发生特性漂移、变形、流液、老化等),布PCB板时要对易发热器件采取散热措施,温度敏感器件要与易发热器件和散热器隔开合适的距离,必要时要从系统的角度考虑采取补偿措施。系统或子系统通过自然散热(通风、对流等)措施不能保证设备内部及关键元器件温升限值指标得到保证时,需要采取强迫制冷措施。
1.9 EMC设计
电磁兼容(EMC)包括电磁干扰(EMI)和电磁敏感度(EMS)两个方面。电磁兼容是指设备或系统在其电磁环境中能正常工作且不对该环境中任何事物构成不能承受的电磁骚扰的能力。
要提升这种能力,有许多应用课题要解决,如:电磁波的散射、透射、传输、孔缝耦合,各种干扰源的机理和特性,各种干扰参数的计算和测试,各种结构的屏蔽效果,各种防护方法、测试方法、标准等等。对应设计的方法也有多种,如:防静电设计、防雷设计、防地电位升设计等等;一般从以下方面考虑,以保证产品的EMC特性:
1、静电放电的防护。首先要阻止电流直接进入电子线路,最普通的办法就是建立完善的屏蔽结构(必要时在外壳与电路之间增加第二层屏蔽层),屏蔽层接到电路的公共接地点上。对内部的电路来说,如果需要与金属外壳相连时,必须采用单点接地的方式,防止放电电流流过这个电路,造成伤害。
2、屏蔽。采用屏蔽的目的有两个:一是限制内部的辐射电磁能越过某一区域;二是防止外来的辐射进入某一区域。主要对电场、电磁场、磁场进行屏蔽(现实对磁场的屏蔽更难)。
3、接地。接地的目的一是防电击,一是去除干扰。接地可分为两大类,即安全接地与信号接地。接地时应该注意:接地线愈短愈好、接地面应具有高传导性、切忌双股电缆分开安装、低频宜采用单点接地系统、高频应采用多点接地系统、去除接地环路;
4、滤波。实际工作中,无法完全做好接地与屏蔽的工作。因此,会采用滤波(将不需要的信号去除)的方式来弥补不足,主要通过滤波电路来实现。在实际使用中,由于设备所产生的杂讯中共模和差模的成分不一样,所采用的滤波电路也有变化,可适当增加或减少滤波元件。具体电路的调整一般要经过EMI测试后才能有满意的结果。
1.10 可靠性指标分配原则
通常分配可靠性指标应考虑下列原则:
Ø 技术水平
对技术成熟的单元,能够保证实现较高的可靠性,或预期投入使用时可靠性可有把握地增长到较高水平,则可分配给较高的可靠度。
Ø 复杂程度
对较简单的单元,组成该单元零部件数量少,组装容易保证质量或故障后易于修复,则可分配给较高的可靠度。
Ø 重要程度
对重要的单元,该单元失效将产生严重的后果,或该单元失效常会导致全系统失效,则应分配给较高的可靠度。
Ø 任务情况
对整个任务时间内均需连续工作以及工作条件严酷,难以保证很高可靠性
单元,则应分配给较低的可靠度。
此外,一般还要受费用、重量、尺寸等条件的约束。总之,最终都是力求以
最小的代价来达到系统可靠性的要求。可靠性指标分配方法有:等分配法、再分配法、比例分配法、综合评分分配
法、动态规划分配法等。
例如:某公司采用如下的综合评分分配法为其产品分配可靠性指标:
由于缺乏产品的可靠性数据,所以请熟悉产品、有工程实际经验的专家,按照影响产品可靠性的几种主要因素(如:复杂度、技术成熟度、重要度及环境条件)进行评分(每一种因素的分值在1~10之间,难度越高评分越高),然后根据评分的结果给各分系统或部件分配可靠性指标。
系统要求的MTBF为500h,由A/B/C/D四个部件组成,各部件评分如下表:
说明:(1)对四个部件(A/B/C/D)按四种因素评分后,填入上表(兰色字迹部分);
(2)对A分而言,最后评分为8*9*6*8=3456;B的评分为5*7*6*8=1680;同理C的评分为900、D的评分为1440;最后四部分总分为:7476;紫红色字迹部分。
(3)对A部分而言,评分系数为3456/7476=0.46;B的评分系数为1680/7476=0.22;C的评分系数为0.12;D的评分系数为0.19;浅紫色部分。
(4)对整个系统而言,失效率为1/500=0.002;
所以分配给A的失效率为:0.46*0.002=0.0009,对应的MTBF为1081.6H;
同理得B/C/D的失效率和MTBF,红色字迹部分。
1 常用器件的可靠性及选择
元件的可靠性主要包括以下几个方面:失效特征、失效机理、抗干扰特性、元件的选用方法、安装工艺以及环境对元件性能的影响等方面。
1.1 元器件失效特性
Ø 失效率
失效率是工作到某时刻尚未失效的产品,在该时刻后单位时间内发生失效的概率。一般记为λ,它也是时间t的函数,故也记为λ(t),称为失效率函数,有时也称为故障率函数或风险函数.
按上述定义,失效率是在时刻t尚未失效产品在t+△t的单位时间内发生失效的条件概率.即
它反映t时刻失效的速率,也称为瞬时失效率.
失效率的观测值是在某时刻后单位时间内失效的产品数与工作到该时刻尚未失效的产品数之比,即
Ø 失效规律
产品的失效规律如下图所示,其失效率随时间变化可分为三段时期,即早期失效期、稳定工作期和衰老期。
早期失效期:失效率曲线为递减型。产品投入使用的前期,失效率较高其失效率曲线下降很快。失效原因主要是由于设计、制造、贮存、运输等形成的缺陷,以及调试、焊接、安装不当等人为因素所造成的。当这些所谓先天不良的失效结束后运转也逐渐正常,则失效率就趋于稳定,到t0时失效率曲线已开始变平。t0以前称为早期失效期。针对早期失效期的失效原因,应该对元件进行筛选、严格安装工艺、设备老化处理后再投入运行,争取失效率低且t0短。
稳定工作期也称正常工作寿命期。失效率曲线在这一时期几乎为恒定值,即t0到ti间的失效率近似为常数。失效原因主要是由非预期的过载、误操作、意外的天灾以及一些尚不清楚的偶然因素所造成。由于失效原因多属偶然,故又称为偶然失效期。偶然失效期是能有效工作的时期,这段时间称为有效寿命。为降低偶然失效期的失效率而增长有效寿命,应注意提高产品的质量,精心使用维护。
衰老期也称为损耗期。失效率曲线是递增型,在t1以后失效率上升较快,这是由于产品已经老化、疲劳、磨损、蠕变、腐蚀等所谓有耗损的原因所引起的,针对耗损失效的原因,应该注意检查、监控、预测耗损开始的时间,提前维修,使失效率仍不上升。
Ø 失效形式
元件的失效形式可分为:突然失效、退化失效、局部失效以及全局失效。
n 突然失效:元件参数急剧变化,或因元件制造工艺不良,环境条件变化导致断路或开路所造成。如器件因压焊不牢造成开路,或因灰尘微粒使器件管脚短路,电容器因电解质击穿造成短路等。
n 退化失效:由于元件制造公差、温度系数变化、材料变质、电源电压波动、工艺不良等因素使元件参数逐渐变差,性能逐渐降低形成。
n 局部失效:退化失效常使系统局部功能失效,称为局部失效。
全局失效:突然失效会使整个系统失效,称为全局失效。
fit表示10-9/h,表示失效率。
扰度也与温度有密切的关系。当温度升高时,P-N结的正向压降减小,其开门和关门电平都将减小,这就使得元件的低电平抗干扰电压容限随温度的升高而变小;高电平抗干扰电压容限随温度的升高而增大,造成输出电平偏移、波形失真、稳态失调,甚至热击穿。
n 温度变化对电阻的影响
温度变化对电阻的影响主要是温度升高时,电阻的热噪声增加,阻值偏离标称值,允许耗散概率下降等。比如,RXT系列的碳膜电阻在温度升高到100℃时,允许的耗散概率仅为标称值的20%。
但我们也可以利用电阻的这一特性,比如,有经过特殊设计的一类电阻:PTC(正温度系数热敏电阻)和NTC(负温度系数热敏电阻),它们的阻值受温度的影响很大。
对于PTC,当其温度升高到某一阀值时,其电阻值会急剧增大。利用这一特性,可将其用在电路板的过流保护电路中,当由于某种故障造成通过它的电流增加到其阀值电流后,PTC的温度急剧升高,同时,其电阻值变大,限制通过它的电流,达到对电路的保护。而故障排除后,通过它的电流减小,PTC的温度恢复正常,同时,其电阻值也恢复到其正常值。
对于NTC,它的特点是其电阻值随温度的升高而减小。
n 温度变化对电容的影响
温度变化将引起电容的到介质损耗变化,从而影响其使用寿命。温度每升高10℃时,电容器的寿命就降低50%,同时还引起阻容时间常数变化,甚至发生因介质损耗过大而热击穿的情况。
此外,温度升高也将使电感线圈、变压器、扼流圈等的绝缘性能下降。
Ø 湿度影响:
湿度过高,当含有酸碱性的灰尘落到电路板上时,将腐蚀元器件的焊点与接线处,造成焊点脱落,接头断裂。
湿度过高也是引起漏电耦合的主要原因。
而湿度过低又容易产生静电,所以环境的湿度应控制在合理的水平。
Ø 电压影响:
施加在元器件上的电压稳定性是保证元器件正常工作的重要条件。过高的电压会增加元器件的热损耗,甚至造成电击穿。对于电容器而言,其失效率正比于电容电压的5次幂。对于集成电路而言,超过其最大允许电压值的电压将造成器件的直接损坏。
Ø 振动、冲击影响:
机械振动与冲击会使一些内部有缺陷的元件加速失效,造成灾难性故障,机械振动还会使焊点、压线点发生松动,导致接触不良;若振动导致导线不应有的碰连,会产生一些意象不到的后果。
1.1 元器件选择
Ø 满足性能要求,元器件地各种性能参数满足性能指标的要求,如耐压、驱动能力、频率特性等;
Ø 满足可靠性要求,考虑在开路、短路、接触不良、参数漂移等失效模式下的可靠性以及元器件的抗干扰性能;
Ø 选用经实践检验证明性能优良的定型元器件;
Ø 尽量减少元器件品种、型号,以保证制造、安装及后期维护方便;
Ø 尽量选用标准元器件,确保元器件的可替换性;
Ø 系统设计时考虑工作环境温度、湿度、振动、冲击等条件;
Ø 在保证可靠性的条件下,尽量选用廉价的元器件,以降低成本
1.2 电阻
Ø 电阻分类:
n 碳膜电阻:气态碳氢化合物在高温和真空中分解,碳沉积在瓷棒或者瓷管上,形成一层结晶碳膜。改变碳膜厚度和用刻槽的方法变更碳膜的长度,可以得到不同的阻值。碳膜电阻成本较低,性能一般。
n 金属膜电阻:在真空中加热合金,合金蒸发,使瓷棒表面形成一层导电金属膜。刻槽和改变金属膜厚度可以控制阻值。这种电阻和碳膜电阻相比,体积小、噪声低、稳定性好,但成本较高。
n 碳质电阻:把碳黑、树脂、粘土等混合物压制后经过热处理制成。在电阻上用色环表示它的阻值。这种电阻成本低,阻值范围宽,但性能差,很小采用。
n 线绕电阻:用康铜或者镍铬合金电阻丝,在陶瓷骨架上绕制成。这种电阻分固定和可变两种。它的特点是工作稳定,耐热性能好,误差范围小,适用于大功率的场合,额定功率一般在1瓦以上。
n 碳膜电位器:它的电阻体是在马蹄形的纸胶板上涂上一层碳膜制成。它的阻值变化和中间触头位置的关系有直线式、对数式和指数式三种。碳膜电位器有大型、小型、微型几种,有的和开关一起组成带开关电位器。
n 线绕电位器:用电阻丝在环状骨架上绕制成。它的特点是阻值范围小,功率较大。
Ø 标称阻值和允许误差
Ø 主要参数
n 额定正向工作电流:是指二极管长期连续工作时允许通过的最大正向电流值。因为电流通过管子时会使管芯发热,温度上升,温度超过容许限度(硅管为140℃左右,锗管为90℃左右)时,就会使管芯过热而损坏。所以,二极管使用中不要超过二极管额定正向工作电流值。例如,常用的IN4001-4007型锗二极管的额定正向工作电流为1A。
n 最高反向工作电压:加在二极管两端的反向电压高到一定值时,会将管子击穿,失去单向导电能力。为了保证使用安全,规定了最高反向工作电压值。例如,IN4001二极管反向耐压为50V,IN4007反向耐压为1000V。
n 反向电流:反向电流是指二极管在规定的温度和最高反向电压作用下,流过二极管的反向电流。反向电流越小,管子的单方向导电性能越好。值得注意的是反向电流与温度有着密切的关系,大约温度每升高10,反向电流增大一倍。例如2AP1型锗二极管,在25℃时反向电流若为250uA,温度升高到35℃,反向电流将上升到500uA,依此类推,在75℃时,它的反向电流已达8mA,不仅失去了单方向导电特性,还会使管子过热而损坏。又如,2CP10型硅二极管,25℃时反向电流仅为5uA,温度升高到75℃时,反向电流也不过160uA。故硅二极管比锗二极管在高温下具有较好的稳定性。
n 最高工作频率f:二极管能承受的最高频率。通过P-N结交流电频率高于此值,二极管则不能正常工作。
n 稳压管:
利用反向击穿特性而使稳压管两端电压稳定的特殊二极管,工作中采取反向接法使之处于反向击穿状态。
其主要参数有稳定电压Uz,最小稳定电流Izmin,最大耗散功率PZM,最大工作电流Izmax(PZM= Uz·Izmax)
4.7 光耦合器
光耦合器是一种由光电流控制的电流转移器件。光耦合器一般由三部分组成:光的发射、光的接收及信号放大。输入的电信号驱动发光二极管(LED),使之发出一定波长的光,被光探测器接收而产生光电流,再经过进一步放大后输出。这就完成了电—光—电的转换,从而起到输入、输出、隔离的作用。由于光耦合器输入输出间互相隔离,电信号传输具有单向性等特点,因而具有良好的电绝缘能力和抗干扰能力。又由于光耦合器的输入端属于电流型工作的低阻元件,因而具有很强的共模抑制能力。所以,它在长线传输信息中作为终端隔离元件可以大大提高信噪比。
n 类型:
通用型(又分无基极引线和基极引线两种)、达林顿型、施密特型、高速型、光集成电路、光纤维、光敏晶闸管型(又分单向晶闸管、双向晶闸管)、光敏场效应管型等
n 技术参数:
光耦合器的技术参数主要有发光二极管正向压降VF、正向电流IF、电流传输比CTR、输入级与输出级之间的绝缘电阻、集电极-发射极反向击穿电压V(BR)CEO、集电极-发射极饱和压降VCE(sat)以及上升时间、下降时间、延迟时间和存储时间等。
在实际应用中最重要的参数是电流传输比CTR(Curremt-Trrasfer Ratio)。通常用直流电流传输比来表示。当输出电压保持恒定时,它等于直流输出电流IC与直流输入电流IF的百分比。
系统的学习硬件可靠性设计,可以咨询硬十客服
想获取《可靠性硬件设计工程师》视频课程更详细信息
长按二维码加硬十客服,了解详情
以上是关于硬件系统的可靠性设计(上)的主要内容,如果未能解决你的问题,请参考以下文章
mysql性能优化方法(硬件升级系统配置表结构设计SQL语句)