Mean Time Between Failures - Universidad San Francisco de Quito
Mean Time Between Failures - Universidad San Francisco de Quito
Mean Time Between Failures - Universidad San Francisco de Quito
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Universidad</strong> <strong>San</strong> <strong>Francisco</strong> <strong>de</strong> <strong>Quito</strong><br />
Procesos Estocásticos<br />
<strong>Mean</strong> <strong>Time</strong> <strong>Between</strong> <strong>Failures</strong> (MTBF) – Nota Explicativa preparada<br />
por René Játiva Espinoza<br />
Definiciones:<br />
Es importante notar que la <strong>de</strong>finición <strong>de</strong>l Tiempo medio entre fallas (MTBF <strong>de</strong>l inglés<br />
<strong>Mean</strong> <strong>Time</strong> <strong>Between</strong> <strong>Failures</strong>) se torna en muchos casos ambiguo si no se ha <strong>de</strong>finido<br />
previamente la noción <strong>de</strong> falla. A continuación citamos dos <strong>de</strong>finiciones <strong>de</strong> falla:<br />
1) La terminación <strong>de</strong> la habilidad <strong>de</strong> un producto entendido como un todo, para<br />
<strong>de</strong>sarrollar la función que se le requiere.<br />
2) La terminación <strong>de</strong> la habilidad <strong>de</strong> cualquier componente individual para <strong>de</strong>sarrollar su<br />
función pero no la terminación <strong>de</strong> la habilidad <strong>de</strong> operación <strong>de</strong>l producto entendido como<br />
un todo.<br />
Se entien<strong>de</strong> entonces que el MTBF impacta tanto a la confiabilidad como a la<br />
disponibilidad, así que citamos las <strong>de</strong>finiciones <strong>de</strong> estos términos:<br />
La Confiabilidad es la habilidad <strong>de</strong> un sistema o componente para <strong>de</strong>sarrollar sus<br />
funciones bajo condiciones pre-establecidas durante un período <strong>de</strong> tiempo especificado<br />
[IEEE 90].<br />
En otras palabras, es la probabilidad <strong>de</strong> que los sistemas o componentes tengan éxito<br />
durante el tiempo <strong>de</strong> la misión i<strong>de</strong>ntificada, sin fallas. Una misión aérea es el perfecto<br />
ejemplo para ilustrar este concepto. Cuando una aeronave <strong>de</strong>spega para su misión, hay<br />
un objetivo en mente: completar el vuelo, como se ha programado, con seguridad (sin<br />
fallas catastróficas).<br />
La Disponibilidad, por otro lado, es el grado al cual un sistema o componente es<br />
operacional y accesible cuando se requiere su uso [IEEE 90].<br />
La disponibilidad pue<strong>de</strong> verse como la probabilidad <strong>de</strong> que el sistema o componente se<br />
encuentre en estado <strong>de</strong> <strong>de</strong>sarrollar su función requerida bajo ciertas condiciones en un<br />
instante dado. La disponibilidad se <strong>de</strong>termina por la confiabilidad <strong>de</strong>l sistema, así como<br />
también por el tiempo <strong>de</strong> recuperación cuando una falla se produce. Cuando los sistemas<br />
tienen tiempos <strong>de</strong> operación continua muy largo, las fallas son inevitables y entonces lo<br />
importante es recuperar la operación <strong>de</strong>l sistema lo más pronto posible.<br />
El valor <strong>de</strong>l MTBF es una medida básica <strong>de</strong> la confiabilidad <strong>de</strong>l sistema. Se la representa<br />
típicamente en horas. Mientras más alto es el valor <strong>de</strong>l MTBF, mayor es la confiabilidad<br />
<strong>de</strong>l producto. La siguiente expresión ilustra esta relación:<br />
tiempo<br />
Confiabilidad e − MTBF<br />
= (1.1)
<strong>Universidad</strong> <strong>San</strong> <strong>Francisco</strong> <strong>de</strong> <strong>Quito</strong><br />
Procesos Estocásticos<br />
Un malentendido común respecto <strong>de</strong>l MTBF es que es equivalente al número esperado <strong>de</strong><br />
horas <strong>de</strong> operación antes <strong>de</strong> que el sistema falle, es <strong>de</strong>cir a la “vida <strong>de</strong> servicio”.<br />
Pongamos el siguiente ejemplo:<br />
En la muestra <strong>de</strong> nuestra población disponemos <strong>de</strong> 500.000 personas <strong>de</strong> 25 años <strong>de</strong> edad.<br />
En el trascurso <strong>de</strong> un año, se recoge información sobre fallas (muertes) <strong>de</strong> los miembros<br />
<strong>de</strong> esta población. La vida operacional <strong>de</strong> la población es <strong>de</strong> 500.00 x 1 año= 500.000<br />
años. Puesto que en el año 625 personas fallaron (murieron), la tasa <strong>de</strong> fallas es <strong>de</strong><br />
625/500.000 años= 0,125%/año. El MTBF es el inverso <strong>de</strong> la tasa <strong>de</strong> fallas, es <strong>de</strong>cir<br />
1/0,00125=800 años. Esto significa que aunque las personas <strong>de</strong> 25 años tienen valores<br />
altos <strong>de</strong> MTBF, su expectativa <strong>de</strong> vida (vida <strong>de</strong> servicio) es mucho más baja y no se<br />
correlacionan. Si lo que preten<strong>de</strong>mos es que el MTBF y la vida <strong>de</strong> servicio se relacionen,<br />
<strong>de</strong>beríamos esperar a que toda la población falle (muera) y entonces tendríamos un valor<br />
<strong>de</strong> MTBF <strong>de</strong> entre 75 y 80 años. Ambos valores son correctos, pero difieren en las<br />
asunciones realizadas. Lo cierto es que en general, se preten<strong>de</strong> disponer <strong>de</strong> un valor que<br />
sirva hoy, y no uno que se obtenga cuando el producto en cuestión haya sido ya superado<br />
tecnológicamente por otro.<br />
Por otra parte el Tiempo Medio <strong>de</strong> Recuperación o MTTR (siglas en inglés <strong>de</strong> <strong>Mean</strong><br />
<strong>Time</strong> to Recover), es el tiempo esperado para recuperar un sistema <strong>de</strong> una falla y se<br />
representa también en horas. Como lo muestra la siguiente ecuación, MTTR impacta<br />
sobre la disponibilidad y no sobre la confiabilidad. Así también el MTBF afecta también<br />
a la disponibilidad. Mientras mayor es el MTBF mejor es la disponibilidad, y mientras<br />
mayor es el MTTR, peor es la disponibilidad <strong>de</strong>l sistema.<br />
MTBF<br />
Disponibilidad =<br />
(1.2)<br />
MTBF + MTTR<br />
Las expresiones anteriores son válidas bajo el supuesto que el sistema exhibe una tasa <strong>de</strong><br />
fallas constante. Esto es cierto en componentes electrónicos únicamente en lo que se<br />
conoce como el “período <strong>de</strong> operación normal” o el “período <strong>de</strong> vida útil” <strong>de</strong>l sistema en<br />
cuestión, como se observa <strong>de</strong> la figura 1.
<strong>Universidad</strong> <strong>San</strong> <strong>Francisco</strong> <strong>de</strong> <strong>Quito</strong><br />
Procesos Estocásticos<br />
Métodos para pre<strong>de</strong>cir y estimar el MTBF<br />
En ocasiones los términos predicción y estimación aparecen como sinónimos, pero en<br />
realidad tienen significados diversos. Los métodos que predicen el MTBF calculan un<br />
valor en base al diseño <strong>de</strong>l sistema, usualmente realizado en una etapa temprana <strong>de</strong>ntro<br />
<strong>de</strong>l ciclo <strong>de</strong> vida <strong>de</strong>l producto. Los métodos <strong>de</strong> estimación por otro lado se consiguen <strong>de</strong><br />
mediciones <strong>de</strong> fallas, y se calculan <strong>de</strong> la observación <strong>de</strong> muestras <strong>de</strong> sistemas similares,<br />
usualmente <strong>de</strong>spués <strong>de</strong> que una gran población ha sido implementada en el campo. Su<br />
uso por tanto es el más recomendado y el más difundido en la industria.<br />
Métodos <strong>de</strong> Predicción <strong>de</strong> la Confiabilidad:<br />
• MIL-HDBK 217.- Bajo este estándar, hay dos formas <strong>de</strong> pre<strong>de</strong>cir la<br />
confiabilidad: Predicción por cuenta <strong>de</strong> Partes y Predicción por Análisis <strong>de</strong><br />
Esfuerzos en Partes.<br />
La Predicción por cuenta <strong>de</strong> Partes implica que la tasa <strong>de</strong> fallas se calcula<br />
literalmente contando los componentes similares <strong>de</strong> un producto y agruparlos en<br />
varios tipos <strong>de</strong> componentes. El número <strong>de</strong> componentes en cada grupo se multiplica<br />
entonces por una tasa <strong>de</strong> fallas genérica, encontrándose así el factor <strong>de</strong> calidad.<br />
Finalmente, las tasas <strong>de</strong> falla <strong>de</strong> todos los diferentes grupos <strong>de</strong> partes se suman para<br />
conseguir la tasa <strong>de</strong> fallas final.<br />
La Predicción por Análisis <strong>de</strong> Esfuerzos en Partes se utiliza mucho más tar<strong>de</strong> en el<br />
ciclo <strong>de</strong> <strong>de</strong>sarrollo <strong>de</strong>l producto, cuando el diseño <strong>de</strong> los circuitos actuales y el<br />
hardware están cerca <strong>de</strong> la producción. La tasa <strong>de</strong> falla para cada componente se<br />
calcula individualmente en base a los niveles <strong>de</strong> esfuerzo específicos a los cuales se<br />
sujeta al componente (por ejemplo humedad, temperatura, vibración, voltaje). Esta<br />
metodología generalmente conduce a una tasa <strong>de</strong> fallas menor que la anterior, y<br />
<strong>de</strong>bido al nivel <strong>de</strong> análisis requerido, este método consume mucho más tiempo en<br />
comparación con otros.<br />
• Telcordia.- Este método originalmente basado en MIL 217, añadió<br />
posteriormente información <strong>de</strong> campo para posibilitar la estimación <strong>de</strong> la<br />
confiabilidad <strong>de</strong> equipos <strong>de</strong> telecomunicaciones. Ha sufrido varias<br />
actualizaciones. Su última revisión correspon<strong>de</strong> a SR-332 Publicación 1, lanzada<br />
en mayo <strong>de</strong> 2001. Esta metodología continúa aplicándose comu una herramienta<br />
<strong>de</strong> diseño <strong>de</strong> producto <strong>de</strong>ntro <strong>de</strong> esta industria.<br />
• HRD5 (Handbook for Reliability Data for Electronic Components).-<br />
Desarrollada por British Telecom y usada exclusivamente en el Reino Unido, es<br />
similar a 217.
<strong>Universidad</strong> <strong>San</strong> <strong>Francisco</strong> <strong>de</strong> <strong>Quito</strong><br />
Procesos Estocásticos<br />
• RBD (Reliability Block Diagram).- Es un dibujo representativo y una<br />
herramienta <strong>de</strong> cálculo que se usa para mo<strong>de</strong>lar la disponibilidad y confiabilidad<br />
<strong>de</strong> un sistema. La estructura <strong>de</strong>l diagrama <strong>de</strong> bloques <strong>de</strong>fine la interacción lógica<br />
<strong>de</strong> las fallas <strong>de</strong>ntro <strong>de</strong> un sistema y no necesariamente sus conexiones lógicas o<br />
físicas en conjunto. Pue<strong>de</strong> mo<strong>de</strong>lar un sistema, un subsistema o un componente.<br />
Muestra el funcionamiento <strong>de</strong> un sistema y como la falla en un componente pue<strong>de</strong><br />
afectar la operación <strong>de</strong> un sistema visto como un todo.<br />
• Mo<strong>de</strong>los <strong>de</strong> Markov.- Proveen la habilidad para analizar los sistemas complejos<br />
tales como arquitecturas eléctricas. Se conocen también como diagramas <strong>de</strong><br />
espacio <strong>de</strong> estados o grafos <strong>de</strong> estado. El espacio <strong>de</strong> estados se <strong>de</strong>fine como un<br />
conjunto <strong>de</strong> todos los estados en los cuales el sistema pue<strong>de</strong> estar. A diferencia <strong>de</strong><br />
los diagramas <strong>de</strong> bloques, los grafos <strong>de</strong> estado proveen una representación más<br />
exacta <strong>de</strong> un sistema. El uso <strong>de</strong> grafos <strong>de</strong> estado el útil para mostrar <strong>de</strong>pen<strong>de</strong>ncias<br />
<strong>de</strong> fallas a componentes, y varios estados que el diagrama <strong>de</strong> bloques no pue<strong>de</strong><br />
representar. A<strong>de</strong>más <strong>de</strong>l MTBF, los mo<strong>de</strong>los <strong>de</strong> Markov proveen varias medidas<br />
<strong>de</strong> un sistema que incluyen la disponibilidad, el MTTR, la probabilidad <strong>de</strong> estar<br />
en un estado dado en un tiempo especificado, etc.<br />
• FMEA/FMECA.- El FMEA (Failure Mo<strong>de</strong> and Effect Analysis) es un proceso<br />
usado en el análisis <strong>de</strong> los modos <strong>de</strong> falla <strong>de</strong> un producto. El análisis pue<strong>de</strong> ir un<br />
paso hacia <strong>de</strong>lante asignando un nivel <strong>de</strong> severidad a cada un <strong>de</strong> los modos <strong>de</strong><br />
falla, en cuyo caso toma el nombre <strong>de</strong> FMECA (Failure Mo<strong>de</strong>, Effects and<br />
Criticality Analysis). FMEA usa una aproximación <strong>de</strong> abajo hacia arriba, es <strong>de</strong>cir<br />
<strong>de</strong>s<strong>de</strong> los componentes hasta el sistema completo. A<strong>de</strong>más <strong>de</strong> usarse como una<br />
herramienta <strong>de</strong> diseño <strong>de</strong> producto, pue<strong>de</strong> usarse para calcular la confiabilidad <strong>de</strong>l<br />
sistema completo. Requiere <strong>de</strong> información <strong>de</strong> probabilidad que pue<strong>de</strong> ser difícil<br />
<strong>de</strong> obtener para ciertas partes <strong>de</strong>l equipamiento.<br />
• Árbol <strong>de</strong> Fallas.- Es una técnica que pue<strong>de</strong> ayudar a <strong>de</strong>tallar el trayecto <strong>de</strong> los<br />
eventos, tanto relacionados al funcionamiento normal como a eventos <strong>de</strong> falla, los<br />
cuales conducen hacia las fallas a nivel <strong>de</strong> componentes o hacia los eventos<br />
in<strong>de</strong>seados que se investigan (aproximación <strong>de</strong> arriba hacia abajo). La<br />
confiabilidad se calcula convirtiendo un árbol <strong>de</strong> fallas completo en un sistema <strong>de</strong><br />
ecuaciones equivalente, usando el álgebra <strong>de</strong> Boole. La información <strong>de</strong><br />
probabilidad requerida por esta metodología pue<strong>de</strong> ser difícil <strong>de</strong> obtener.<br />
• HALT (Highly Accelerated Life Testing).- Se usa para establecer cuánto tiempo<br />
lleva alcanzar el punto <strong>de</strong> ruptura <strong>de</strong> un producto, sujetándolo a esfuerzos<br />
cuidadosamente medidos y controlados, tales como temperatura y vibración.<br />
Utiliza un mo<strong>de</strong>lo matemático para estimar el tiempo que habría tomado para que<br />
el producto fallara en el campo. Aunque HALT pue<strong>de</strong> estimar el MTBF, su<br />
función principal es mejorar la confiabilidad <strong>de</strong>l diseño <strong>de</strong>l producto.
<strong>Universidad</strong> <strong>San</strong> <strong>Francisco</strong> <strong>de</strong> <strong>Quito</strong><br />
Procesos Estocásticos<br />
Métodos <strong>de</strong> Predicción <strong>de</strong> la Confiabilidad:<br />
• Método <strong>de</strong> Predicción <strong>de</strong> Artículos Similares.- Se basa en estimar la<br />
confiabilidad a partir <strong>de</strong> registros históricos <strong>de</strong> artículos similares. Su efectividad<br />
<strong>de</strong>pen<strong>de</strong> <strong>de</strong> cuán similar es el nuevo equipamiento con respecto al existente y<br />
cuya información se encuentra disponible. La similitud <strong>de</strong>be enten<strong>de</strong>rse en<br />
términos <strong>de</strong> procesos <strong>de</strong> manufactura, funciones <strong>de</strong>l producto y diseños. Las<br />
diferencias <strong>de</strong>ben estudiarse cuidadosamente para la predicción final.<br />
• Método <strong>de</strong> Medición <strong>de</strong> Información en Campo.- Es posiblemente el método más<br />
utilizado por los fabricantes, y consiste en hacer seguimiento <strong>de</strong> una muestra <strong>de</strong> la<br />
población <strong>de</strong> nuevos productos. Una vez que se recoge la información, se<br />
calculan la tasa <strong>de</strong> fallas y el MTBF. La tasa <strong>de</strong> fallas es el porcentaje <strong>de</strong> la<br />
población <strong>de</strong> unida<strong>de</strong>s que se espera que “fallen” en un año calendario.<br />
Adicionalmente al uso <strong>de</strong> esta información para el control <strong>de</strong> calidad, se provee<br />
también a los clientes y socios con información al respecto <strong>de</strong> la confiabilidad <strong>de</strong><br />
sus productos y procesos <strong>de</strong> calidad. Dado que este método es tan ampliamente<br />
utilizado por los fabricantes, provee una referencia común para comparar valores<br />
<strong>de</strong>l MTBF. Esta información pue<strong>de</strong> ser utilizada por los usuarios para valorar<br />
diferencias <strong>de</strong> calidad en el equipamiento ofrecido por los diversos fabricantes y<br />
tomar <strong>de</strong>cisiones en consecuencia. Para efectuar dichas comparaciones, las<br />
variables críticas consi<strong>de</strong>radas <strong>de</strong>ben ser las mismas para asegurar que el proceso<br />
<strong>de</strong> <strong>de</strong>cisión sea el correcto.<br />
Conclusiones:<br />
La palabra MTBF se utiliza comúnmente en la industria como una “alarma”. Los<br />
números se lanzan sin un entendimiento <strong>de</strong> lo que verda<strong>de</strong>ramente representan. Mientras<br />
el MTBF es una indicación <strong>de</strong> la confiabilidad, no representa la vida media <strong>de</strong> servicio<br />
<strong>de</strong>l producto. En último término, un valor <strong>de</strong> MTBF no tiene significado si la falla es<br />
in<strong>de</strong>finida y las asunciones son confusas o no son realistas.<br />
Referencias:<br />
Las i<strong>de</strong>as <strong>de</strong> este artículo se han extraído <strong>de</strong>:<br />
“<strong>Mean</strong> <strong>Time</strong> <strong>Between</strong> Failure: Explanation and Standards”; Wendy Torrel, Victor<br />
Abelar; White Paper #78; American Power Conversio, 2004; www.apc.com.