Задачи ведения протокола ошибок

В этом разделе рассмотрены задачи регистрации ошибок.

Чтение отчета об ошибках

Для получения отчета о всех ошибках, обнаруженных в течение суток, предшествовавших сбою, введите следующую команду:

errpt -a -s ммддччммгг | pg

где ммддччммгг - месяц, день, час, минута и год суток, предшествовавших сбою.

Отчет об ошибках содержит следующую информацию:

Прим.: Для некоторых ошибок может быть получена не вся информация.
Метка
Предопределенное название события.
ID
Числовой идентификатор события.
Дата/время
Дата и время события.
Порядковый номер
Уникальный номер события.
ИД системы
Идентификатор системного блока.
ИД узла
Мнемоническое имя системы.
Класс
Общий источник ошибки. Существуют следующие классы ошибок:
H
Аппаратное обеспечение. (При получении сообщения об ошибке аппаратного обеспечения обратитесь к руководству оператора системы за инструкциями по диагностике отказавшего устройства или другого оборудования. Диагностическая программа определяет состояние устройства, проверяя устройство и анализируя связанные с ним записи протокола ошибок.)
S
Программное обеспечение.
O
Информационные сообщения.
U
Неопределенные (например, сбой сети).
Введите
Серьезность обнаруженной ошибки. Существуют следующие типы ошибок:
PEND
Устройство или компонент может стать недоступным.
PERF
Производительность устройства или компонента понизилась ниже допустимого уровня.
PERM
Неисправимая ошибка. Этот тип относится к самым серьезным ошибкам и свидетельствует о неисправности устройства или модуля программного обеспечения. Ошибки всех типов, кроме PERM, обычно не означают неисправности, но записываются для анализа в диагностических программах.
TEMP
Ошибка, которая была исправлена после нескольких неудачных попыток. Этот тип ошибки также применяется для записи информационных сообщений, например, статистики передачи данных устройствами DASD.
UNKN
Невозможно определить серьезность ошибки.
INFO
Запись протокола ошибок носит информационный характер и не свидетельствует об ошибке.
Имя ресурса
Имя ресурса, обнаружившего ошибку. В случае ошибки программного обеспечения содержит имя компонента программного обеспечения или имя программы. В случае ошибки аппаратного обеспечения - имя устройства или компонента системы. Это не означает, что компонент неисправен и требует замены. Это значение лишь указывает модуль диагностики, применяемый для анализа ошибки.
Класс ресурса
Общий класс ресурса, обнаружившего ошибку (например, класс устройства дисковый накопитель).
Тип ресурса
Тип ресурса, обнаружившего ошибку (например, тип устройства 355mb).
Код расположения
Путь к устройству. Может содержать до четырех полей, соответствующих корпусу, разъему, кабелю и порту.
VPD
Сведения о продукте. В этом поле может быть указана различная информация. Запись об устройстве в протоколе ошибок обычно содержит информацию о производителе устройства, серийном номере, уровнях конструкторских изменений и версиях ПЗУ.
Описание
Краткое описание ошибки.
Возможная причина
Список возможных источников ошибки.
Ошибки пользователя
Список возможных ошибок пользователя, вызвавших сбой. Примером таких ошибок являются неправильно вставленные диски или внешние устройства (такие как модемы и принтеры), питание которых отключено.
Рекомендуемые действия
Инструкции по устранению ошибок, вызванных пользователем.
Ошибка установки
Список возможных ошибок при установке и настройке, вызвавших сбой. Примерами ошибок такого типа являются несовместимость программного и аппаратного обеспечения, неправильное подключение кабелей или их отсоединение, а также неправильно настроенные системы.
Рекомендуемые действия
Инструкции по устранению ошибок, вызванных неправильной установкой.
Причины сбоя
Список возможных неполадок программного и аппаратного обеспечения.
Прим.: Раздел протокола ошибок "возможный сбой" обычно свидетельствует о неполадке программного обеспечения. Если же в протоколе есть записи об ошибке пользователя или установке, но нет записи о возможном сбое, то это обычно означает, что программное обеспечение не является причиной неполадки.

Если вы считаете, что причиной является ошибка программного обеспечения или вам не удается исправить ошибку пользователя или установки, сообщите о неполадке в отдел по обслуживанию программного обеспечения.

Рекомендуемые действия
Инструкции по устранению сбоя. В случае ошибок аппаратного обеспечения список рекомендуемых действий содержит запись ВЫПОЛНИТЕ ПРОЦЕДУРЫ ЛОКАЛИЗАЦИИ НЕПОЛАДКИ. Это значит, что необходимо запустить диагностическую программу.
Подробные сведения
  • Уникальные для каждой записи протокола ошибок данные об ошибке, например, код ошибки устройства.
  • Информация о текущем рабочем каталоге процесса, например, FILE SYSTEM SERIAL NUMBER (серийный номер файловой системы) и INODE NUMBER (номер узла I) при создании процессом дампа ядра.
Флаг -A позволяет просмотреть краткую версию подробного отчета, который выдается, если в команде указан флаг -a. Флаг -A нельзя применять совместно с флагами -a, -g, и -t. В отчет, создаваемый с помощью флага -A, включается следующая информация:
  • Метка
  • Дата и время
  • Введите
  • Имя ресурса
  • Описание
  • Подробные данные
Ниже приведен пример вывода, полученного с помощью этого флага:
МЕТКА: STOK_RCVRY_EXIT
Дата/Время:       срд 14 Дек 15.25.33
Тип:              TEMP
Имя ресурса:      tok0
Описание  НЕПОЛАДКА УСТРАНЕНА
Подробные данные FILE NAME строка: 273 файл: stok_wdt.c 
SENSE DATA 
0000 0000 0000 0000 0000 0000 DEVICE ADDRESS 0004 AC62 25F1
Некоторые ошибки можно исключить из отчета. Для просмотра ошибок, исключенных из отчета, введите команду:
errpt -t -F report=0 | pg

Если такие ошибки есть, включите в отчет все ошибки с помощью команды errupdate.

Некоторые ошибки могут не регистрироваться в протоколе. Для просмотра ошибок, исключенных из протокола, введите команду:
errpt -t -F log=0 | pg

Если такие ошибки есть, включите регистрацию в протоколе для всех ошибок с помощью команды errupdate. Регистрация всех ошибок в протоколе необходима для воссоздания ошибки системы.

Примеры подробных отчетов об ошибках

Ниже приведен пример записей отчета об ошибках, созданного с помощью команды errpt -a.

Класс ошибки H и тип ошибки PERM означают, что в системе была обнаружена ошибка устройства (драйвера адаптера SCSI), которую не удалось устранить. С этим типом ошибки могут быть связаны данные диагностики. Они будут показаны в конце сообщения, как показано на следующем примере ошибки драйвера устройства:

МЕТКА:      SCSI_ERR1
ИД:         0502F666

Дата/время:       19 июня 22:29:51
Порядковый номер: 95
ИД системы:       123456789012
ИД узла:          host1
Класс:            H
Тип:              PERM
Имя ресурса:      scsi0
Класс ресурса:    adapter
Тип ресурса:      hscsi
Расположение:           00-08
VPD:
     Device Driver Level.........00
     Diagnostic Level............00
     Displayable Message.........SCSI
     EC Level....................C25928
     FRU Number..................30F8834
     Manufacturer................IBM97F
     Part Number.................59F4566
     Serial Number...............00002849
     ROS Level and ID............24
     Read/Write Register Ptr.....0120

Описание
ADAPTER ERROR

Возможные причины
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE

Причины сбоя
ADAPTER
CABLE LOOSE OR DEFECTIVE

          Рекомендуемые действия
          PERFORM PROBLEM DETERMINATION PROCEDURES
          CHECK CABLE AND ITS CONNECTIONS

Подробные сведения
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 

Порядковый номер протокола диагностики: 153
Проверенный ресурс:     scsi0
Описание ресурса:       SCSI I/O Controller
Расположение:           00-08
SRN:                    889-191
Описание:               Анализ протокола ошибок указывает на неполадку аппаратного обеспечения.
Возможные FRU:
    SCSI Bus        FRU: n/a            00-08
                    Fan Assembly
    SCSI2           FRU: 30F8834        00-08
                    SCSI I/O Controller
Класс ошибки H и тип ошибки PEND означают, что устройство (Token Ring) может в ближайшее время стать недоступным из-за большого количества ошибок, обнаруженных системой.

МЕТКА:    TOK_ESERR
ИД:       AF1621E8

Дата/время:      20 июня 22:28:11
Порядковый номер: 17262
ИД системы:      123456789012
ИД узла:         host1
Класс:           H
Тип:             PEND
Имя ресурса:     TokenRing
Класс ресурса:   tok0
Тип ресурса:     Adapter
Расположение:    TokenRing

Описание
EXCESSIVE TOKEN-RING ERRORS

Возможные причины
TOKEN-RING FAULT DOMAIN

Причины сбоя
TOKEN-RING FAULT DOMAIN

        Рекомендуемые действия
        REVIEW LINK CONFIGURATION DETAIL DATA
        CONTACT TOKEN-RING ADMINISTRATOR RESPONSIBLE FOR THIS LAN

Подробные сведения
SENSE DATA
0ACA 0032 A440 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 2080 0000 0000 0010 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 78CC 0000 0000 0005 C88F 0304 F4E0 0000 1000 5A4F 5685 
1000 5A4F 5685 3030 3030 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000
Класс ошибки S и тип ошибки PERM означают, что в системе была обнаружена ошибка программного обеспечения, которую не удалось устранить.
МЕТКА:    DSI_PROC
ИД:       20FAED7F
 
Дата/время:      Jun 28 23:40:14
Порядковый номер: 20136
ИД системы:      123456789012
ИД узла:         123456789012
Класс:           S
Тип:             PERM
Имя ресурса:     SYSVMM

Описание
Data Storage Interrupt, Processor

Возможные причины
ПРИКЛАДНАЯ ПРОГРАММА

Причины сбоя
ПРИКЛАДНАЯ ПРОГРАММА

        Рекомендуемые действия
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Подробные сведения
Data Storage Interrupt Status Register
4000 0000
Data Storage Interrupt Address Register
0000 9112
Segment Register, SEGREG
D000 1018
EXVAL
0000 0005
Класс ошибки S и тип ошибки TEMP означают, что в системе была обнаружена ошибка программного обеспечения. После нескольких попыток системе удалось устранить неполадку.

МЕТКА:          SCSI_ERR6
ИД:             52DB7218
 
Дата/время:      Jun 28 23:21:11
Порядковый номер: 20114
ИД системы:      123456789012
ИД узла:         host1
Класс:           S
Тип:             INFO
Имя ресурса:      scsi0

Описание
SOFTWARE PROGRAM ERROR

Возможные причины
ПРИКЛАДНАЯ ПРОГРАММА

Причины сбоя
ПРИКЛАДНАЯ ПРОГРАММА

        Рекомендуемые действия
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Подробные сведения
SENSE DATA
0000 0000 0000 0000 0000 0011 0000 0008 000E 0900 0000 0000 FFFF 
FFFE 4000 1C1F 01A9 09C4 0000 000F 0000 0000 0000 0000 FFFF FFFF 
0325 0018 0040 1500 0000 0000 0000 0000 0000 0000 0000 0000 0800 
0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000
Класс ошибки O означает информационное сообщение.
МЕТКА:     OPMSG
ИД:        AA8AB241
 
Дата/время:      Jul 16 03:02:02
Порядковый номер: 26042
ИД системы:      123456789012
ИД узла:         host1
Класс:           O
Тип:             INFO
Имя ресурса:     OPERATOR

Описание
OPERATOR NOTIFICATION

Ошибки пользователя
errlogger COMMAND

        Рекомендуемые действия
        REVIEW DETAILED DATA

Подробные сведения
MESSAGE FROM errlogger COMMAND
hdisk1 : Анализ протокола ошибок указывает на неполадку аппаратного обеспечения.

Пример краткого отчета об ошибках

Ниже приведен пример краткого отчета об ошибках, созданного с помощью команды errpt. Каждой записи об ошибке соответствует одна строка информации.

ERROR_
IDENTIFIER TIMESTAMP  T CL RESOURCE_NAME ERROR_DESCRIPTION
192AC071   0101000070 I 0  errdemon      Error logging turned off
0E017ED1   0405131090 P H  mem2          Memory failure
9DBCFDEE   0101000070 I 0  errdemon      Error logging turned on
038F2580   0405131090 U H  scdisk0       UNDETERMINED ERROR
AA8AB241   0405130990 I O  OPERATOR      OPERATOR NOTIFICATION

Создание отчета об ошибках

Выполните следующие действия, чтобы создать отчет об ошибках программного обеспечения или неполадках аппаратного обеспечения:

  1. Определите, включено ли ведение протокола ошибок.
    errpt -a
    Команда errpt создает отчет об ошибках из записей системного протокола ошибок.
    Если протокол ошибок пуст, ведение протокола ошибок было отключено. Активизируйте средство ведения протокола ошибок с помощью следующей команды:
    /usr/lib/errdemon
    Прим.: Для запуска этой команды необходимы права доступа пользователя root.

    Демон errdemon запускает ведение протокола ошибок. Если демон не работает, протокол ошибок не ведется.

  2. Создайте отчет об ошибках с помощью команды errpt. Например, для просмотра всех ошибок дискового накопителя hdisk1 введите команду:
    errpt -N hdisk1
  3. Создайте отчет об ошибках с помощью SMIT. Например, с помощью команды smit errpt:
    
    smit errpt
    1. Выберите 1, чтобы направить отчет об ошибках в стандартный вывод, или 2, чтобы отправить отчет на принтер.
    2. Выберите да, чтобы просматривать или распечатывать записи протокола ошибок по мере их добавления. В противном случае выберите нет.
    3. Укажите нужное имя устройства в опции Выбрать имена ресурсов (например hdisk1).
    4. Выберите Выполнить.

Завершение ведения протокола ошибок

В данном разделе описано завершение работы средства ведения протокола ошибок.

Для выключения средства ведения протокола ошибок введите команду errstop. Для запуска этой команды необходимы права доступа пользователя root.

Как правило, отключать средство ведения протокола ошибок не требуется. Вместо этого следует удалить из протокола ошибок старые и ненужные записи.

Средство ведения протокола ошибок следует отключать при установке или проверке нового программного или аппаратного обеспечения. В этом случае демон ведения протокола ошибок не будет отнимать время центрального процессора на регистрацию известных вам ошибок.

Очистка протокола ошибок

Обычно очистка протокола автоматически выполняется ежедневно с помощью команды cron. Если эта процедура не выполняется автоматически, следует время от времени очищать протокол ошибок вручную, предварительно проверив его на наличие записей о серьезных неполадках.

Кроме того, можно удалить записи о конкретных ошибках. Например, после замены дискового накопителя можно удалить из протокола ошибок записи об ошибках старого дискового накопителя.

Для удаления всех записей протокола ошибок выполните одно из следующих действий:

  • Вызовите команду errclear -d. Например, для удаления всех записей об ошибках программного обеспечения, введите команду:
    errclear -d S 0
    Команда errclear удаляет из протокола ошибок записи, внесенные раньше определенного числа дней. В предыдущем примере для удаления всех записей указано значение 0.
  • Введите команду smit errclear:
    smit errclear

Копирование протокола ошибок на дискету или магнитную ленту

Выполните следующие действия, чтобы скопировать протокол ошибок:

  • С помощью команд ls и backup скопируйте протокол ошибок на дискету. Вставьте отформатированную дискету в дисковод и введите команду:
    ls /var/adm/ras/errlog | backup -ivp
  • Для копирования протокола ошибок на магнитную ленту вставьте магнитную ленту в накопитель и введите команду:
    ls /var/adm/ras/errlog | backup -ivpf/dev/rmt0
  • С помощью команды snap соберите информацию о конфигурации системы в файл tar и скопируйте его на дискету. Вставьте отформатированную дискету в дисковод и введите команду:
    snap -a -o /dev/rfd0
    Прим.: Для вызова команды snap необходимы права доступа root.

    В этом примере для сбора всей информации о конфигурации системы в команде snap указан флаг -a. Флаг -o позволяет скопировать сжатый файл tar на указанное устройство. /dev/rfd0 указывает дисковод.

    Введите следующую команду, чтобы собрать всю информацию о конфигурации в файле tar и скопировать его на магнитную ленту:
    snap -a -o /dev/rmt0

    /dev/rmt0 указывает накопитель на магнитной ленте.

Работа со службами liberrlog

Службы liberrlog позволяют читать записи протокола ошибок и обновлять некоторые данные. Они более удобны в применении с языком программирования С, чем со сценариями оболочки. Обращение к протоколу ошибок с помощью функций liberrlog намного более эффективно, чем с помощью команды errpt.