Задачи ведения протокола ошибок
В этом разделе рассмотрены задачи регистрации ошибок.
Чтение отчета об ошибках
Для получения отчета о всех ошибках, обнаруженных в течение суток, предшествовавших сбою, введите следующую команду:
errpt -a -s ммддччммгг | pgгде ммддччммгг - месяц, день, час, минута и год суток, предшествовавших сбою.
Отчет об ошибках содержит следующую информацию:
- Метка
- Предопределенное название события.
- ID
- Числовой идентификатор события.
- Дата/время
- Дата и время события.
- Порядковый номер
- Уникальный номер события.
- ИД системы
- Идентификатор системного блока.
- ИД узла
- Мнемоническое имя системы.
- Класс
- Общий источник ошибки. Существуют следующие классы ошибок:
- H
- Аппаратное обеспечение. (При получении сообщения об ошибке аппаратного обеспечения обратитесь к руководству оператора системы за инструкциями по диагностике отказавшего устройства или другого оборудования. Диагностическая программа определяет состояние устройства, проверяя устройство и анализируя связанные с ним записи протокола ошибок.)
- S
- Программное обеспечение.
- O
- Информационные сообщения.
- U
- Неопределенные (например, сбой сети).
- Введите
- Серьезность обнаруженной ошибки. Существуют следующие типы ошибок:
- PEND
- Устройство или компонент может стать недоступным.
- PERF
- Производительность устройства или компонента понизилась ниже допустимого уровня.
- PERM
- Неисправимая ошибка. Этот тип относится к самым серьезным ошибкам и свидетельствует о неисправности устройства или модуля программного обеспечения. Ошибки всех типов, кроме PERM, обычно не означают неисправности, но записываются для анализа в диагностических программах.
- TEMP
- Ошибка, которая была исправлена после нескольких неудачных попыток. Этот тип ошибки также применяется для записи информационных сообщений, например, статистики передачи данных устройствами DASD.
- UNKN
- Невозможно определить серьезность ошибки.
- INFO
- Запись протокола ошибок носит информационный характер и не свидетельствует об ошибке.
- Имя ресурса
- Имя ресурса, обнаружившего ошибку. В случае ошибки программного обеспечения содержит имя компонента программного обеспечения или имя программы. В случае ошибки аппаратного обеспечения - имя устройства или компонента системы. Это не означает, что компонент неисправен и требует замены. Это значение лишь указывает модуль диагностики, применяемый для анализа ошибки.
- Класс ресурса
- Общий класс ресурса, обнаружившего ошибку (например, класс устройства дисковый накопитель).
- Тип ресурса
- Тип ресурса, обнаружившего ошибку (например, тип устройства 355mb).
- Код расположения
- Путь к устройству. Может содержать до четырех полей, соответствующих корпусу, разъему, кабелю и порту.
- VPD
- Сведения о продукте. В этом поле может быть указана различная информация. Запись об устройстве в протоколе ошибок обычно содержит информацию о производителе устройства, серийном номере, уровнях конструкторских изменений и версиях ПЗУ.
- Описание
- Краткое описание ошибки.
- Возможная причина
- Список возможных источников ошибки.
- Ошибки пользователя
- Список возможных ошибок пользователя, вызвавших сбой. Примером таких ошибок являются неправильно вставленные диски или внешние устройства (такие как модемы и принтеры), питание которых отключено.
- Рекомендуемые действия
- Инструкции по устранению ошибок, вызванных пользователем.
- Ошибка установки
- Список возможных ошибок при установке и настройке, вызвавших сбой. Примерами ошибок такого типа являются несовместимость программного и аппаратного обеспечения, неправильное подключение кабелей или их отсоединение, а также неправильно настроенные системы.
- Рекомендуемые действия
- Инструкции по устранению ошибок, вызванных неправильной установкой.
- Причины сбоя
- Список возможных неполадок программного и аппаратного обеспечения. Прим.: Раздел протокола ошибок "возможный сбой" обычно свидетельствует о неполадке программного обеспечения. Если же в протоколе есть записи об ошибке пользователя или установке, но нет записи о возможном сбое, то это обычно означает, что программное обеспечение не является причиной неполадки.
Если вы считаете, что причиной является ошибка программного обеспечения или вам не удается исправить ошибку пользователя или установки, сообщите о неполадке в отдел по обслуживанию программного обеспечения.
- Рекомендуемые действия
- Инструкции по устранению сбоя. В случае ошибок аппаратного обеспечения список рекомендуемых действий содержит запись ВЫПОЛНИТЕ ПРОЦЕДУРЫ ЛОКАЛИЗАЦИИ НЕПОЛАДКИ. Это значит, что необходимо запустить диагностическую программу.
- Подробные сведения
- Уникальные для каждой записи протокола ошибок данные об ошибке, например, код ошибки устройства.
- Информация о текущем рабочем каталоге процесса, например, FILE SYSTEM SERIAL NUMBER (серийный номер файловой системы) и INODE NUMBER (номер узла I) при создании процессом дампа ядра.
- Метка
- Дата и время
- Введите
- Имя ресурса
- Описание
- Подробные данные
МЕТКА: STOK_RCVRY_EXIT
Дата/Время: срд 14 Дек 15.25.33
Тип: TEMP
Имя ресурса: tok0
Описание НЕПОЛАДКА УСТРАНЕНА
Подробные данные FILE NAME строка: 273 файл: stok_wdt.c
SENSE DATA
0000 0000 0000 0000 0000 0000 DEVICE ADDRESS 0004 AC62 25F1errpt -t -F report=0 | pgЕсли такие ошибки есть, включите в отчет все ошибки с помощью команды errupdate.
errpt -t -F log=0 | pgЕсли такие ошибки есть, включите регистрацию в протоколе для всех ошибок с помощью команды errupdate. Регистрация всех ошибок в протоколе необходима для воссоздания ошибки системы.
Примеры подробных отчетов об ошибках
Ниже приведен пример записей отчета об ошибках, созданного с помощью команды errpt -a.
МЕТКА: SCSI_ERR1
ИД: 0502F666
Дата/время: 19 июня 22:29:51
Порядковый номер: 95
ИД системы: 123456789012
ИД узла: host1
Класс: H
Тип: PERM
Имя ресурса: scsi0
Класс ресурса: adapter
Тип ресурса: hscsi
Расположение: 00-08
VPD:
Device Driver Level.........00
Diagnostic Level............00
Displayable Message.........SCSI
EC Level....................C25928
FRU Number..................30F8834
Manufacturer................IBM97F
Part Number.................59F4566
Serial Number...............00002849
ROS Level and ID............24
Read/Write Register Ptr.....0120
Описание
ADAPTER ERROR
Возможные причины
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Причины сбоя
ADAPTER
CABLE LOOSE OR DEFECTIVE
Рекомендуемые действия
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Подробные сведения
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
Порядковый номер протокола диагностики: 153
Проверенный ресурс: scsi0
Описание ресурса: SCSI I/O Controller
Расположение: 00-08
SRN: 889-191
Описание: Анализ протокола ошибок указывает на неполадку аппаратного обеспечения.
Возможные FRU:
SCSI Bus FRU: n/a 00-08
Fan Assembly
SCSI2 FRU: 30F8834 00-08
SCSI I/O Controller
МЕТКА: TOK_ESERR
ИД: AF1621E8
Дата/время: 20 июня 22:28:11
Порядковый номер: 17262
ИД системы: 123456789012
ИД узла: host1
Класс: H
Тип: PEND
Имя ресурса: TokenRing
Класс ресурса: tok0
Тип ресурса: Adapter
Расположение: TokenRing
Описание
EXCESSIVE TOKEN-RING ERRORS
Возможные причины
TOKEN-RING FAULT DOMAIN
Причины сбоя
TOKEN-RING FAULT DOMAIN
Рекомендуемые действия
REVIEW LINK CONFIGURATION DETAIL DATA
CONTACT TOKEN-RING ADMINISTRATOR RESPONSIBLE FOR THIS LAN
Подробные сведения
SENSE DATA
0ACA 0032 A440 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 2080 0000 0000 0010 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 78CC 0000 0000 0005 C88F 0304 F4E0 0000 1000 5A4F 5685
1000 5A4F 5685 3030 3030 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000МЕТКА: DSI_PROC
ИД: 20FAED7F
Дата/время: Jun 28 23:40:14
Порядковый номер: 20136
ИД системы: 123456789012
ИД узла: 123456789012
Класс: S
Тип: PERM
Имя ресурса: SYSVMM
Описание
Data Storage Interrupt, Processor
Возможные причины
ПРИКЛАДНАЯ ПРОГРАММА
Причины сбоя
ПРИКЛАДНАЯ ПРОГРАММА
Рекомендуемые действия
IF PROBLEM PERSISTS THEN DO THE FOLLOWING
CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Подробные сведения
Data Storage Interrupt Status Register
4000 0000
Data Storage Interrupt Address Register
0000 9112
Segment Register, SEGREG
D000 1018
EXVAL
0000 0005
МЕТКА: SCSI_ERR6
ИД: 52DB7218
Дата/время: Jun 28 23:21:11
Порядковый номер: 20114
ИД системы: 123456789012
ИД узла: host1
Класс: S
Тип: INFO
Имя ресурса: scsi0
Описание
SOFTWARE PROGRAM ERROR
Возможные причины
ПРИКЛАДНАЯ ПРОГРАММА
Причины сбоя
ПРИКЛАДНАЯ ПРОГРАММА
Рекомендуемые действия
IF PROBLEM PERSISTS THEN DO THE FOLLOWING
CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Подробные сведения
SENSE DATA
0000 0000 0000 0000 0000 0011 0000 0008 000E 0900 0000 0000 FFFF
FFFE 4000 1C1F 01A9 09C4 0000 000F 0000 0000 0000 0000 FFFF FFFF
0325 0018 0040 1500 0000 0000 0000 0000 0000 0000 0000 0000 0800
0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000МЕТКА: OPMSG
ИД: AA8AB241
Дата/время: Jul 16 03:02:02
Порядковый номер: 26042
ИД системы: 123456789012
ИД узла: host1
Класс: O
Тип: INFO
Имя ресурса: OPERATOR
Описание
OPERATOR NOTIFICATION
Ошибки пользователя
errlogger COMMAND
Рекомендуемые действия
REVIEW DETAILED DATA
Подробные сведения
MESSAGE FROM errlogger COMMAND
hdisk1 : Анализ протокола ошибок указывает на неполадку аппаратного обеспечения.Пример краткого отчета об ошибках
Ниже приведен пример краткого отчета об ошибках, созданного с помощью команды errpt. Каждой записи об ошибке соответствует одна строка информации.
ERROR_
IDENTIFIER TIMESTAMP T CL RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0101000070 I 0 errdemon Error logging turned off
0E017ED1 0405131090 P H mem2 Memory failure
9DBCFDEE 0101000070 I 0 errdemon Error logging turned on
038F2580 0405131090 U H scdisk0 UNDETERMINED ERROR
AA8AB241 0405130990 I O OPERATOR OPERATOR NOTIFICATIONСоздание отчета об ошибках
Выполните следующие действия, чтобы создать отчет об ошибках программного обеспечения или неполадках аппаратного обеспечения:
- Определите, включено ли ведение протокола
ошибок.
Команда errpt создает отчет об ошибках из записей системного протокола ошибок.errpt -aЕсли протокол ошибок пуст, ведение протокола ошибок было отключено. Активизируйте средство ведения протокола ошибок с помощью следующей команды:/usr/lib/errdemonПрим.: Для запуска этой команды необходимы права доступа пользователя root.Демон errdemon запускает ведение протокола ошибок. Если демон не работает, протокол ошибок не ведется.
- Создайте отчет об ошибках с помощью команды
errpt. Например, для просмотра всех ошибок дискового накопителя
hdisk1 введите команду:
errpt -N hdisk1 - Создайте отчет об ошибках с помощью SMIT. Например, с помощью команды smit errpt:
smit errpt- Выберите 1, чтобы направить отчет об ошибках в стандартный вывод, или 2, чтобы отправить отчет на принтер.
- Выберите да, чтобы просматривать или распечатывать записи протокола ошибок по мере их добавления. В противном случае выберите нет.
- Укажите нужное имя устройства в опции Выбрать имена ресурсов (например hdisk1).
- Выберите Выполнить.
Завершение ведения протокола ошибок
В данном разделе описано завершение работы средства ведения протокола ошибок.
Для выключения средства ведения протокола ошибок введите команду errstop. Для запуска этой команды необходимы права доступа пользователя root.
Как правило, отключать средство ведения протокола ошибок не требуется. Вместо этого следует удалить из протокола ошибок старые и ненужные записи.
Средство ведения протокола ошибок следует отключать при установке или проверке нового программного или аппаратного обеспечения. В этом случае демон ведения протокола ошибок не будет отнимать время центрального процессора на регистрацию известных вам ошибок.
Очистка протокола ошибок
Обычно очистка протокола автоматически выполняется ежедневно с помощью команды cron. Если эта процедура не выполняется автоматически, следует время от времени очищать протокол ошибок вручную, предварительно проверив его на наличие записей о серьезных неполадках.
Кроме того, можно удалить записи о конкретных ошибках. Например, после замены дискового накопителя можно удалить из протокола ошибок записи об ошибках старого дискового накопителя.
Для удаления всех записей протокола ошибок выполните одно из следующих действий:
- Вызовите команду
errclear -d. Например, для удаления всех
записей об ошибках программного обеспечения, введите команду:
Команда errclear удаляет из протокола ошибок записи, внесенные раньше определенного числа дней. В предыдущем примере для удаления всех записей указано значение 0.errclear -d S 0 - Введите команду smit errclear:
smit errclear
Копирование протокола ошибок на дискету или магнитную ленту
Выполните следующие действия, чтобы скопировать протокол ошибок:
- С помощью команд
ls и
backup скопируйте протокол
ошибок на дискету. Вставьте отформатированную дискету в дисковод и введите
команду:
ls /var/adm/ras/errlog | backup -ivp - Для копирования протокола ошибок на
магнитную ленту вставьте магнитную ленту в накопитель и
введите команду:
ls /var/adm/ras/errlog | backup -ivpf/dev/rmt0 - С помощью команды snap соберите информацию о
конфигурации системы в файл tar и скопируйте его на
дискету. Вставьте отформатированную дискету в дисковод и введите
команду:
snap -a -o /dev/rfd0Прим.: Для вызова команды snap необходимы права доступа root.В этом примере для сбора всей информации о конфигурации системы в команде snap указан флаг -a. Флаг -o позволяет скопировать сжатый файл tar на указанное устройство. /dev/rfd0 указывает дисковод.
Введите следующую команду, чтобы собрать всю информацию о конфигурации в файле tar и скопировать его на магнитную ленту:snap -a -o /dev/rmt0/dev/rmt0 указывает накопитель на магнитной ленте.
Работа со службами liberrlog
Службы liberrlog позволяют читать записи протокола ошибок и обновлять некоторые данные. Они более удобны в применении с языком программирования С, чем со сценариями оболочки. Обращение к протоколу ошибок с помощью функций liberrlog намного более эффективно, чем с помощью команды errpt.