2021-06-17 14:08
电子器件的失效本质上是器件内外部的电子运动、化学、机械等作用破坏了器件内部的结构。因此从长期看电子器件都是会失效的,且失效概率大致符合量子技术的分布特点:随时间成指数分布的关系。如果对失效的统计规律进行细分的话,还能将其分早期失效、偶然失效期和损耗失效期为三个阶段,见下图:
早期失效的原因主要是生产过程中引起的器件结构差异,可以通过一定的应力筛选办法可以将这部分器件筛选出来。第二阶段是器件的主要工作的时期,失效率基本处于平稳的状态,失效主要由偶然因素所造成。可以近似认为失效概率处在一个定值。到了第三阶段器件进入损失失效期后,失效率迅速上升,这就是产品的寿命“终了”。
那么既然失效是运动破坏了器件结构。反过来说要降低电子器件的失效率的办法也就来自三个方面:降低电子运动的能量;提高器件结构的强度;通过外部手段保护器件结构。
降低电子运动的能量;包括降低自身设备的电子应力和降低外部干扰电子应力两个部分的内容。降低自身设备的电子应力主要手段是降低不必要的如信号线的电流;降低功率器件的功耗;增加滤波电路和纹波吸收电路;降低系统功耗等措施;降低外部干扰电子应力则可以通过隔离、屏蔽、滤波等措施实现。
提高器件结构的强度,简单的理解就是选用标准更高的器件,能耐105℃的器件显然就比能耐70℃的器件更稳固,在相同条件下其寿命也会更高。同理,同等条件下25V耐压的电容显然比16V耐压的电容的寿命长;更高额定电流的器件也就比低额定电流的器件更耐用。用一个更通用的词汇来说就是降额设计。
保护器件结构不受损坏的方法主要在外部。很显然在高温、腐蚀性、潮湿、盐雾、震动的等环境下运行的器件结构更加容易受到损坏。那么对这些因素进行防护也是有效的提高可靠性的方法。手段有刷三防漆、加屏蔽罩、减震器、温控器等。
值得注意的是,电子器件的失效模式不可忽略。首先必须对器件失效或者性能降低后会产生什么样的后果,如果设备失效后产生的是包括起火、爆炸、触底在内的人身安全事故这就完全不可接受。典型的如:钽电容的失效就经常伴随短路和起火,这就需要为其单独考虑防护措施,比如保险等。另一个方面很多电子器件的失效模式是指标的下降,这个过程会伴随设备的整个使用过程连续发生,那么在电子器件指标的下降到不能容忍前,都可以认为设备是正常的。比较典型的是电解电容。这样的器件就必须预留较大的设计余量以满足其工作寿命的要求。
如果不考虑外部的机械、化学损坏的话,所有提高可靠性设计的手段总计起来就一句话:“降低系统的相对电应力”。以下介绍一些比较简单但是对改善可靠性非常有效的技术手段。
如前面所说,虽然理论上说做可靠性设计需要做可靠性指标的分解与计算。但是由于短板效应的存在,少数几个寿命短板往往就直接决定了系统的最终寿命,只需要能识别出一些可靠性上面的短板并针对性的做出改进,系统寿命就能得到质的改善。
识别寿命瓶颈其实并不太难,大致有以下几种方法:
一些常见的短板。包括电源、风扇、功率开关、机械开关、高频工作的机械式继电器等常常就是寿命的短板。因此对这些部分自然就是可靠性设计的重点。
高应力、高功率部件;比如开关电源中的IGBT、MOS管、电源。无线系统中的功放。
高发热部件。自身温升超过60度的器件都值得警惕。
设计余量较小的部件;比如耐压25V的器件用在24V的环境上,额定功率1W的器件实际功耗0.9W等等。
工作在恶劣环境中的部件;工作在振动、高温、潮湿环境中的部件应作重点保护和处理。必要时做更大的降额设计。
在识别出寿命的短板后,针对性的改用可靠性更高的或者容量更大的器件。短板问题就能得到巨大的提高。
绝大多数器件厂家都会给出一个标称值或者额定值。这个标称值和额定值背后其实隐藏着一个关键信息,即在这个额定值条件下能连续工作多长时间。举例来说,如某个电容的标称值是10uF-16V-70℃。其含义包含了在16V、70℃的条件下电容能连续工作1000小时。考虑到实际应用中还可能存在纹波、系统自身发热等因素,实际寿命其实远远低于1000小时。这就必须要做降额设计了。
考虑到通常来说系统额定电源每下降10%寿命会延长约一个数量级;工作温度每下降10℃寿命也会延长约一个数量级(不同类型、不同结构器件的寿命曲线参数有所不同)。那么以电容为例对于一个期望在40℃环境下能连续工作10000小时以上的设备而言,考虑上系统自身发热,电源纹波、开关过充等影响。额定电压至少应降额30%以上,额定工作温度最好选择105℃以上的。
“3.1 识别并改善寿命瓶颈” 提到使用风扇会大大降低系统整体的寿命。但因为风扇的使用会改善发热部件的局部温升,从而大大提高发热部件的寿命。当然这只是散热的其中一种手段。其它的诸如:降低功耗、提高散热面积、改用新的散热方式、降低热阻等手段都能起到对关键器件的保护作用。
同理做好抗振/减振措施、加上三防涂覆、增加屏蔽、对电源加强滤波泄放等措施也都能针对性的改善设备运行环境,并针有效改善设备的可靠性。
隔离的目的就是让系统尽可能的脱离外部复杂的运行环境,让设备尽可能的在更加安全、稳定中的环境中运行。严格来说隔离措施是“3.3节改善使用环境”的其中一种手段,但由于其效果很好且很容易被忽略在这里单独提出来说。隔离包括三个层次上的隔离:
电气隔离;及通过变压器、光耦等隔离器件把独立模块与其它功能模块的电气连接关系完全打断。确保即使在外部模块完全损坏的情况下不会对内部模块的功能、性能造成大的影响。值得注意的是一旦选择了电气隔离的方案往往就意味着电源、信号、通信等所有环节都要隔离。
功能隔离;即采用磁珠、电感、滤波、去耦网络、触发器甚至简单的保险丝、二极管等器件,将某些具有独立的电气特性的区间单独划分出来的隔离方式。
间距隔离或屏蔽;通过把不同功能,不同特性的电气模块拉开一定的物理间距,甚至增加屏蔽的方式实现隔离。
从改善可靠性的效果看,电气隔离>功能隔离>间距隔离或屏蔽。但不管采用那种方式的隔离,总的来说隔离都有利于降低因为外部原因引起的电应力,从而提高系统可靠性。隔离还能同时提升系统EMC性能,安全性等性能。但隔离往往也意味着系统复杂性和成本的增加。
设备卖出后就要在用户的环境中运行。很难保证用户的环境真的就如工程师所获得的设计输入那样。很多时候符合技术标准的设备到用户那里就会出现各种各样奇葩的问题,举个例子来说:你很难要求用户不在你的设备旁边放一个大功率电机;也很难保证在野外环境下能得到50Hz频率稳定的交流电。这些看似不起眼的小变化其实都会加速设备的损耗。
不过有一个好消息是这对于所有供应商来说都是公平的。换句话说如果我们的设备在这种环境中很快就会坏,我的竞争对手也一样。那么如何让我的设备能相对的好一点,对于用户来说其体验就会大大改善。产品的口碑就会很好。再比如同样是故障,但我们的故障只是停机而竞争对手的就是爆炸、起火,那样的差距也不是能同日而语的。除了少数大型公司外,很少有公司在技术规范中有对失效模式进行细致的要求,所以许多工程师并不注重这些降低失效影响的设计。但是这些环节却经常最终表现为用户的口碑、公司的核心竞争力、甚至很多公司因为一两次重大事故而被行业封杀的案例也是时有发生的。
比如:安规设计一定要使用安规电容,因为安规电容的失效模式能确保为短路;减少在电源处使用TVS,因为TVS的失效模式会造成短路;减少钽电容的使用,因为其失效模式为短路,且容易发送燃烧。
另外增加一些失效保护模块(比如保险丝、变压器),也是控制设备失效模式的有效手段。
纹波对电路寿命的影响是非常巨大的。这是因为电子元件的寿命根据其所有应力的增大呈指数被的减小。包括电容、电感、电阻等在内的滤波器件能显著改善系统的纹波,这对提高其附近电路的寿命作用很大。适当的提高这些部件参数来控制纹波从长期看也是很有价值的。
如果进一步研究还会发现某些器件,特别是无源器件的失效模式很多是规格参数的改变。比较典型是电解电容,由于其电解液的挥发,长期看电解电容值是在下降的。而很多电解电容在电路中都是起到支撑电容的作用。但电容值下降后,电路的纹波就会不断的增加。这会进一步恶化电路可靠性。因此在做电源设计时,需要在计算控制的纹波标准的基础上将电容的参数再扩大至少半个数量级。
对于一些发生原因来自外部,发生概率随机的问题,在原理设计层面直接解决这些问题往往非常困难。理论上说我们可以把锅甩给客户,指责是用户使用不当导致的问题。但这样对用户体验也不好。
一个比较有效的方式就是设计一个能够被替换的保护模块。但问题来的时候让保护模块先行损坏,进而避免或者减弱对主要功能模块的损坏。比如:在多用电系统电路中增加保险或者断路器;在容易遭到雷击的地方增加泄放回路。
在我们生活中也有这样的案例,比如手机碎屏这个问题就是典型的:发生概率随机,发生原因多样且难以控制的问题。我们针对这样的问题最简单的解决办法就是贴保护膜,膜是可替换的,碎了可以随时更换。由于保护了屏这个易损件,站在用户层面看手机的寿命就得到很大的改善。
值得一提的是,手机的膜还是一个让用户付费的消耗品,且利润极高,其利润率比手机高出很多,甚至孕育出了一个产业。因此即使抛开技术,站在商业层面看也是一个非常成功的案例。