对问题进行故障诊断

故障诊断是一种系统的解决问题的方法。故障诊断的目标是确定某功能不能按预期工作的原因以及如何解决该问题。

故障诊断过程的第一步是完整描述问题。问题描述有助于您和 IBM 技术支持代表了解要从何处开始查找问题的原因。此步骤包括对您自己提出以下基本问题:

对这些问题的答复通常会形成对问题的准确描述,然后此描述可帮助您获取问题解决方法。

问题有哪些症状?

开始描述问题时,最明显的问题是“发生什么问题?”此问题似乎很直接;但是,可将它分解为若干个较集中的疑问,这些疑问能够对问题提供较生动的描述。这些问题包括:

问题在何处发生?

确定问题发生的位置并不总是那么容易,但它是解决问题的最重要步骤之一。报告组件和失败组件之间可能存在多层技术。网络、磁盘和驱动程序仅是调查问题时要考虑的其中一些组件。

以下问题有助于您隔离问题层:

如果某一层报告问题,那么问题并不一定源于该层。确定问题起源位置的过程中,有一点就是了解问题存在的环境。请花一些时间来全面地描述问题环境,包括操作系统和版本、所有相应的软件和版本以及硬件。确认您在受支持的环境中运行;许多问题可追溯至不兼容的软件级别(并非旨在一起运行,或者尚未完全一起测试)。

问题在何时发生?

建立导致故障的事件的详细时间线,特别是对于一次性发生的那些情况。可通过反向工作来最方便地建立时间线:在报告错误时(尽可能精确,甚至精确到毫秒)启动并通过可用的日志和信息反向工作。通常,只需要查看在诊断日志中找到的第一个可疑事件。

如果要建立事件的详细时间线,请回答下列问题:

问题是在什么情况下发生的?

了解在发生问题时哪些系统和应用程序正在运行是进行故障诊断的重要部分。有关环境的这些疑问可帮助您识别问题的原因:

回答这类疑问可以帮助您解释问题发生时所处的环境,并且将任何依赖性相关起来。请注意,正是因为同一时间前后可能已发生多个问题,所以这些问题并不一定相关。

可以重现问题吗?

可以再现的问题通常较容易解决。但是,可以再现的问题具有一个缺点。如果问题具有重大业务影响,那么您不想它再现。如果有可能,应该在测试或开发环境中再现该问题,这通常能够使您在调查期间更为灵活并且拥有更大的控制权。回答下列问题: