As empresas dependem todos os dias de vários sistemas e equipamentos para manter suas operações funcionando sem problemas. Mas todos os sistemas inevitavelmente exigem manutenção. Pode ser software intangível, como uma rede de serviços de TI que acumulou bugs suficientes para quebrar uma funcionalidade importante, fazendo com que os desenvolvedores procurem correções. Ou pode ser um equipamento físico, como uma máquina de sorvete em uma lanchonete com um o-ring quebrado.
Eventualmente, tudo se quebra, desde sistemas de TI em vários locais até lâmpadas individuais. Downtime não planejado pode ter consequências catastróficas, e cabe aos engenheiros e técnicos de manutenção das instalações planejar com antecedência para que medidas rápidas sejam tomadas para corrigir uma falha. O objetivo é minimizar o downtime, reduzindo os custos associados à perda de produtividade, receita ou insatisfação do cliente.
O downtime pode ser minimizado de várias maneiras. Por exemplo, as empresas podem visar reduzir o tempo necessário para reparar um equipamento, tendo peças de reposição suficientes acessíveis aos técnicos no local. Ou então, eles podem observar os processos de reparo para encontrar maneiras mais rápidas de realizar reparos ou maneiras mais rápidas de notificar os técnicos. Além disso, eles podem fazer investimentos em ferramentas com melhor desempenho e vida útil mais longa para reduzir o número de reparos necessários.
Mas para entender como melhorar a confiabilidade de sistemas e componentes, primeiro precisamos medir sua confiabilidade. Tempo médio para reparo (MTTR)— também conhecido como tempo médio para recuperação — e tempo médio entre falhas (MTBF) são duas métricas de falha comumente usadas para medir a confiabilidade de sistemas ou produtos no campo da manutenção de instalações. Embora esses acrônimos estejam relacionados, eles têm significados diferentes e são usados para responder a perguntas diferentes.
Primeiro, vamos avaliar o MTBF.
Boletim informativo do setor
Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
O MTBF é um indicador-chave de desempenho (KPI) que representa o tempo médio entre duas falhas consecutivas de um sistema ou produto. O MTBF é uma medida de confiabilidade e é comumente usado no contexto de garantias, planejamento de manutenção e desenvolvimento de produtos. Observe que o MTBF, que se refere a itens reparáveis, não deve ser confundido com o termo intimamente relacionado, tempo médio para falhas (MTTF), que se refere a ativos que não são reparáveis e precisam ser substituídos em vez de reparados.
O cálculo do MTBF utiliza esta fórmula:
MTBF = Tempo total de operação/Número de falhas em um determinado período
Assim, por exemplo, se um produto for usado por 1.000 horas e falhar 3 vezes durante esse período, o MTBF seria: 1.000 horas/3 falhas = 333,3 horas
Isso indica que, em média, o produto pode falhar após 333,3 horas de uso.
O MTBF é útil para determinar a vida útil esperada de um produto e pode ajudar os fabricantes a planejar a manutenção ou a substituição. No entanto, ele não leva em conta quanto tempo leva para reparar um produto depois que ele falha, o que pode ser uma consideração importante em algumas aplicações.
É aí que entra o MTTR.
MTTR é o tempo médio que leva para reparar um sistema ou produto após a falha. O MTTR é usado para medir a confiabilidade de um sistema ou produto do ponto de vista de reparo. O MTTR normalmente inclui o tempo necessário para notificar as equipes de manutenção, permitir que o equipamento esfrie para reparo, corrigir o problema, remontar quaisquer equipamentos ou sistemas relevantes e testar antes de reiniciar a produção.
O objetivo do MTTR é minimizar o downtime causado por falhas e reduzir os custos associados aos reparos.
Veja como calcular o MTTR:
MTTR = Downtime total/Número total de falhas em um tempo específico
Por exemplo, se no último ano um sistema falhou 5 vezes, resultando em 10 horas totais de downtime (incluindo o tempo de reparo), o MTTR seria: 10 horas/5 reparos = 2 horas
Isso significa que, em média, são necessárias duas horas para reparar o sistema após a ocorrência de uma falha.
O MTTR é útil para determinar a eficiência das operações de manutenção e pode ajudar a identificar áreas onde melhorias podem ser feitas.
O tempo médio entre falhas (MTBF) e o tempo médio para reparo (MTTR) respondem a perguntas diferentes e têm aplicações diferentes. MTBF e MTTR existem em uma família de KPIs que incluem tempo médio para responder, tempo médio para detectar (MTTD) e tempo médio para reconhecer (MTTA), entre outros.
O MTBF é uma medida de quanto tempo um sistema ou produto deve operar antes de falhar, e é usado para planejar manutenção ou substituição. MTTR é uma medida de quanto tempo leva para reparar um sistema ou produto após ele falhar, e é usado para minimizar o downtime e reduzir os custos de reparo.
O MTBF não leva em consideração o período de tempo necessário para reparar um produto após ele falhar, enquanto o MTTR não leva em consideração o tempo total entre as falhas.
Em muitos casos de uso, ambas as métricas podem ser utilizadas em conjunto para obter uma visão mais completa da capacidade de manutenção geral de um sistema ou produto. Por exemplo, em uma fábrica de produção, o MTBF pode ser usado para determinar a vida útil esperada de uma máquina e planejar a substituição, enquanto o MTTR pode ser usado para otimizar os cronogramas de manutenção dessa máquina e maximizar o tempo de atividade total.
No contexto do desenvolvimento de software, o MTBF pode ser usado para medir a estabilidade de um sistema e planejar atualizações ou correções, enquanto o MTTR pode ser usado para otimizar o processo de desenvolvimento e reduzir o tempo necessário para corrigir problemas.
Melhorar o MTBF e o MTTR para reduzir o downtime pode ser um processo complexo que envolve identificar e lidar com as causas raiz das falhas do sistema, otimizar as operações de manutenção e implementar melhorias nos processos de projeto e fabricação.
Atualmente, grandes organizações usam sistemas de gerenciamento de manutenção computadorizados (CMMSs) para ajudá-los a gerenciar seus processos de manutenção. Um CMMS normalmente oferece funcionalidades como gerenciamento de ordens de trabalho, agendamento de manutenção preventiva, gestão de inventário, gestão de ativos e relatórios.
O IBM Maximo é um software de gestão de ativos empresariais que inclui recursos abrangentes de CMMS. Maximo é uma plataforma única e integrada baseada em nuvem que utiliza inteligência artificial (IA), IoT e análises para otimizar desempenho, estender o ciclo de vida dos ativos e reduzir os custos de quedas de funcionamento. Uma ferramenta relacionada, o IBM Instana Observability, oferece full stack observability, com o objetivo de ajudar os usuários a otimizar e democratizar a prevenção de incidentes.
Esses dois produtos lhe darão a visibilidade sobre seus ativos e operações de que você precisará para tomar decisões mais inteligentes e baseadas em dados, resultando em menos falhas e menos downtime.
Inscreva-se no boletim informativo Think