狀態指令
IBM Traveler 伺服器的 tell status 指令為 tell traveler status。
如果您在整體狀態為「綠色」時執行此指令,則系統顯示的唯一訊息為 IBM Traveler overall status is GREEN。當狀態為「黃色」或「紅色」時,系統會顯示導致不相符的所有狀況。傳回的訊息包括不相符的原因及失敗的可能原因(如果可用)。此狀態資訊是 systemdump 指令的一部分。
tell traveler status
The IBM Traveler task has been running since Tue Jun 15 17:08:37 EDT 2010.
The last successful device sync was on Mon Jun 21 06:43:01 EDT 2010.
Yellow Status Messages
The response times for opening databases on mail server CN=Mail1/O=Test are above the acceptable threshold.
The response times for opening databases on mail server CN=Mail7/O=Test are above the acceptable threshold.
Red Status Messages
17,238 errors have been logged for user CN=Joe Tester/OU=Test/O=IBM.
There have been 3,845 device sync failures for reasons other than the server is too busy.
The overall status of IBM Traveler is Red.
執行緒檢查
- DS 或 PS 執行緒已執行一段「很長」的時間
- 問題臨界值:
- 黃色:壁鐘執行時間超過 30 分鐘
- 紅色:壁鐘執行時間超過 120 分鐘
主控台訊息: User {User name} on thread {thread name} has been running for {xx} minutes.
可能原因:如果已達「紅色」臨界值,執行緒可能會當掉。在罕見情況下,可能會對超大型使用者資料庫或慢速郵件伺服器進行裝置同步化或極長的準備同步化,但這是正常的。
更正動作:- 持續性黃色狀況可能表示郵件伺服器太慢或 Traveler 伺服器超載。請監視並尋找可能有更佳診斷指示的其他狀態狀況。
- 如果是第一次出現,請執行系統傾出,其中將包括 Traveler 服務中所有執行緒的相關資訊。請在 Domino 指令行使用 tell traveler systemdump 並執行 nsd,以收集原生堆疊。請收集日誌。
- 重新啟動 Traveler 服務。這極有可能需要進行完整的 Domino® 伺服器重新啟動,而且您可能需要結束 Domino 伺服器,才能使其完全關閉。
- 裝置同步化失敗,且回覆碼為 503 的百分比
- 問題臨界值:
- 黃色:503 同步化數目超過 5%。
- 紅色:503 同步化數目超過 10%。
主控台訊息: There have been {number of 503 RC} device sync failures because the server is too busy and returned status code 503.
可能原因:最可能的原因是伺服器超容量運作。503 表示沒有執行緒可供處理同步化要求,因此 Traveler 伺服器會繼續配置執行緒,直到其變成資源受限的伺服器為止。
更正動作:請增加記憶體,或將部分使用者移至另一部 IBM Traveler 伺服器。
- 裝置同步化失敗,且錯誤碼不是 503 的百分比
- 問題臨界值:
- 黃色:不成功的同步化數目超過 5%。
- 紅色:不成功的同步化數目超過 10%。
主控台訊息: There have been {number of error code other than 503 RC} device sync failures for reasons other than the server is too busy.
可能原因:IBM Traveler 伺服器與使用者的裝置之間有網路連線功能問題。
- HTTP 執行緒配置
- 問題臨界值:
- 黃色:尖峰或現行連線數大於 HTTP 執行緒的 80%。
- 紅色:尖峰或現行連線數大於 HTTP 執行緒的 90%。
主控台訊息:- The number of active HTTP connections is {current percentage} percent of the available HTTP threads ({HTTP Threads}).
- The peak number of HTTP connections is {peak percentage} percent of the available HTTP threads ({HTTP Threads}).
可能原因:此狀況暗示沒有足夠的 HTTP 執行緒可供嘗試使用 IBM Traveler 伺服器的裝置數使用。
更正動作:- 如果有足夠的記憶體和 CPU 資源,則增加 HTTP 執行緒的數目。
- 將部分使用者移至另一部 IBM Traveler 伺服器。
記憶體檢查
- 原生記憶體用量
- 問題臨界值:
- 黃色:原生記憶體用量大於 85%
- 紅色:原生記憶體用量大於 95%
主控台訊息: The current native memory usage is {current percentage} percent of the available memory.
可能原因:原生共用記憶體包括與「Domino 伺服器」上的其他 Domino 應用程式之間的共用記憶體。
更正動作:- 驗證是否配置了太多 HTTP 執行緒。
- 減少在 Domino 伺服器上執行的應用程式數。
- 減少機器上的 IBM Traveler 使用者數目。
- 發出 tell traveler mem 指令,以查看記憶體和 CPU 使用率的歷程。
- Java 記憶體用量
- 問題臨界值:
- 黃色:Java 記憶體用量大於 85%
- 紅色:Java 記憶體用量大於 95%
- 導致黃色狀態的授信伺服器
- 問題臨界值:
- 黃色:郵件伺服器 {MailServerName} 的授信伺服器清單中沒有 IBM Traveler 伺服器 {TravelerServerName}。
其他檢查
- CPU 使用率
檢查現行資料,以查看系統是否運作過度。此程式碼會進行從現在到過去一段完整間隔的檢查。 平均來看,用於測量 CPU 使用率的時段將是間隔長度的 1.5 倍。依預設,間隔為 15 分鐘。
問題臨界值:- 黃色:CPU 臨界值為 70%。
- 紅色:CPU 臨界值為 90%。
主控台訊息: The IBM Traveler's CPU usage is {current percentage} percent over the last {minutes} minutes of processing.
更正動作:- 減少在 Domino 伺服器上執行的應用程式數。
- 減少機器上的 IBM Traveler 使用者數目。
- 發出 tell traveler mem 指令,以查看記憶體和 CPU 使用率的歷程。
- 記載的錯誤訊息
檢查以查看針對某位使用者記載的錯誤訊息數是否達到臨界值。 這些臨界值是以每一個人員為基準來監視的,而非指系統上的所有使用者。
問題臨界值:- 黃色:使用者的錯誤數大於 50 個錯誤。
- 紅色:使用者的錯誤數大於 100 個錯誤。
主控台訊息: {0} errors have been logged for user {1}. 檢查針對給定的伺服器開啟的資料庫時間。
問題臨界值:- 黃色:10% 的開啟高於「黃色開啟臨界值」
- 紅色:5% 的開啟高於「紅色開啟臨界值」
主控台訊息: The response times for opening databases on mail server {mail server name} are above the acceptable threshold.
可能原因:檢查 IBM Traveler 伺服器與郵件伺服器之間是否有網路延遲。
- 可用的磁碟空間。
- 檢查 IBM Traveler 伺服器上是否有足夠可用的磁碟空間。如 *_DATA_DIR_FREE_* 及 *_LOG_DIR_FREE_* 參數所指,請套用至資料目錄及日誌目錄。
依預設,資料目錄下包含著日誌目錄,但可能管理者會將日誌目錄移動至不同的磁碟。問題臨界值:
- 黃色:小於 15% 可用的磁碟空間
- 紅色:小於 5% 可用的磁碟空間
主控台:{location} 的磁碟空間有百分之 {%} 可用。
更正動作:請移除不需要的檔案,以增加可用的磁碟空間。
限制處理
限制處理是監視系統的主動程式碼,其會檢查並查看系統是否已進入資源限制狀態。 當系統記憶體或資料庫連線超出給定的臨界值時,系統會進入受限的狀態。一旦偵測到限制狀態,IBM Traveler 就不容許啟動新的裝置同步執行緒或主要同步執行緒。其他執行緒得以完成,而限制狀況可望減輕。 如果限制狀況持續存在,則現有的 IBM Traveler 執行緒儲存區邏輯將結束其他未用的執行緒,以進一步減少系統的記憶體覆蓋區。準備同步化執行緒數目下限是 5,而裝置同步化執行緒下限是 10。如果系統處於限制狀態,則會拒絕新的裝置同步化,並傳回 503 狀態碼(伺服器忙碌)。 在進入及離開限制狀態時,系統將以執行緒摘要資訊記載訊息的資訊層次。 每當限制狀態持續超過 60 分鐘時,便會記載錯誤訊息,並執行系統傾出。
當記憶體狀況達到「紅色」狀態時,系統會進入限制模式,當它低於「紅色」臨界值 5% 時,便會離開該模式。依預設,當原生記憶體百分比用量大於 NTS_STATUS_MEMORY_NATIVE_RED(依預設為 95%),或當 Java 記憶體大於 NTS_STATUS_MEMORY_NATIVE_RED(依預設為 85%)時,系統會進入限制模式。當原生記憶體用量低於 90% 且 Java 記憶體低於 91% 時,系統會離開限制模式。
統計資料
- GetAlarm.Time.Histogram
- NameLookup.Time.Histogram
- DCA.DB_OPEN
- DCA.DB_CLOSE
- ERRORS.<UserId>
- CPU.Pct.<% CPU Range in 10% increments>(000-010、010-020,依此類推)
- DATABASE.QUERY.HISTOGRAM<SimpleName>(000-001、001-002、002-005,依此類推)。
配置參數
| 參數名稱 | 預設值 | 說明 |
|---|---|---|
| NTS_STATUS_CPU_PCT_RED_THRESHOLD | 90 | 紅色 CPU 百分比臨界值。 |
| NTS_STATUS_CPU_PCT_YELLOW_THRESHOLD | 70 | 黃色 CPU 百分比臨界值。 |
| NTS_STATUS_DATA_DIR_FREE_GIGABYTES_RED | 5 | 資料目錄上的可用空間 GB 的紅色臨界值。 |
| NTS_STATUS_DATA_DIR_FREE_GIGABYTES_YELLOW | 10 | 資料目錄上的可用空間 GB 的黃色臨界值。 |
| NTS_STATUS_DATA_DIR_FREE_PERCENTAGE_RED | 5 | 資料目錄上的可用空間百分比的紅色臨界值。 |
| NTS_STATUS_DATA_DIR_FREE_PERCENTAGE_YELLOW | 15 | 資料目錄上的可用空間百分比的黃色臨界值。 |
| NTS_STATUS_DB_ACCESS_INTERVAL | 0 | 定義 Database.Query.Histogram 統計資料的哪個直方圖儲存區會被視為可接受。儲存區中長度超過此設定的任何項目將計數為「黃色」或「紅色」狀態的百分比。 |
| NTS_STATUS_DB_ACCESS_PCT_OVER_RED | 5 | 如果儲存區中 Database.Query.Histogram 統計資料的百分比高於 NTS_STATUS_DB_ACCESS_INTERVAL 中定義的值,則會將狀態設為紅色。 |
| NTS_STATUS_DB_ACCESS_PCT_OVER_YELLOW | 2 | 如果儲存區中 Database.Query.Histogram 統計資料的百分比高於 NTS_STATUS_DB_ACCESS_INTERVAL 中定義的值,則會將狀態設為黃色。 |
| NTS_STATUS_DB_OPEN_INTERVAL_YELLOW | 4 | 降低時間限制間隔索引,以開啟 GENERAL_TIME_HISTOGRAM_BOUNDARIES_NAMES 中的「資料庫」。間隔為 "000-001"、"001-002"、"002-005"、"005-010"、"010-030"、"030-060"、"060-120"、"120-Inf"。 |
| NTS_STATUS_DB_OPEN_PCT_OVER_YELLOW | 5 | 若為超過 STATUS_DB_OPEN_INTERVAL_YELLOW 的百分比,將狀態設為「黃色」。 |
| NTS_STATUS_DS_FAILURE_503_RED | 10 | 如果是執行緒失敗且錯誤訊息為 503 的百分比,則會視為「紅色」狀態。 |
| NTS_STATUS_DS_FAILURE_503_YELLOW | 5 | 如果是執行緒失敗且錯誤訊息為 503 的百分比,則會視為「黃色」狀態。 |
| NTS_STATUS_DS_FAILURE_NON_503_RED | 10 | 如果是執行緒失敗且錯誤訊息非 503 的百分比,則會視為「紅色」狀態。 |
| NTS_STATUS_DS_FAILURE_NON_503_YELLOW | 5 | 如果是執行緒失敗且錯誤訊息非 503 的百分比,則會視為「黃色」狀態。 |
| NTS_STATUS_ERROR_COUNT_RED | 100 | 針對每一位使用者,如果其錯誤數高於此值,其狀態將設為「紅色」。 |
| NTS_STATUS_ERROR_COUNT_YELLOW | 50 | 針對每一位使用者,如果其錯誤數高於此值,則狀態將設為「黃色」。 |
| NTS_STATUS_HTTP_THREAD_PCT_RED | 90 | 如果尖峰 HTTP 執行緒用量高於此限制,則狀態將設為「紅色」。 |
| NTS_STATUS_HTTP_THREAD_PCT_YELLOW | 80 | 如果尖峰 HTTP 執行緒用量高於此限制,則狀態將設為「黃色」。 |
| NTS_STATUS_IPC_DELAY_TIME_PCT_YELLOW | 95 | IPC.DelayTime 統計資料是一種直方圖,用來測量在 HTTP 與 IBM Traveler 之間傳送物件的延遲。如果最小直方圖 IPC.DelayTime 儲存區中的數字超過此百分比,狀態將設為黃色。 |
| NTS_STATUS_LOG_DIR_FREE_GIGABYTES_RED | 5 | 記載目錄上的可用空間 GB 的紅色臨界值。 |
| NTS_STATUS_LOG_DIR_FREE_GIGABYTES_YELLOW | 10 | 記載目錄上的可用空間 GB 的黃色臨界值。 |
| NTS_STATUS_LOG_DIR_FREE_PERCENTAGE_RED | 5 | 記載目錄上的可用空間百分比的紅色臨界值。 |
| NTS_STATUS_LOG_DIR_FREE_PERCENTAGE_YELLOW | 15 | 記載目錄上的可用空間百分比的黃色臨界值。 |
| NTS_STATUS_MEMORY_EXIT_CONSTRAINT_DELTA | 5 | 當高記憶體用量導致 IBM Traveler 進入受限狀態時,現行記憶體用量必須低於這裡設定的限制,然後才能結束受限狀態。 |
| NTS_STATUS_MEMORY_JAVA_RED | 85 | 紅色 Java 記憶體百分比臨界值。 |
| NTS_STATUS_MEMORY_JAVA_YELLOW | 75 | 黃色 Java 記憶體百分比臨界值。 |
| NTS_STATUS_MEMORY_NATIVE_RED | 95 | 紅色原生記憶體百分比臨界值。 |
| NTS_STATUS_MEMORY_NATIVE_YELLOW | 85 | 黃色原生記憶體百分比臨界值。 |
| NTS_STATUS_MINIMUM_SAMPLES | 100 | 在百分比計算為紅色或黃色狀態之前必須先取得範例的數量下限。 |
| NTS_STATUS_SSL_CERT_EXPIRATION_RED | 7 | 如果 NTS_SSL 為 true,此為 SSL 憑證到期日前的剩餘天數的紅色狀態臨界值。 |
| NTS_STATUS_SSL_CERT_EXPIRATION_YELLOW | 30 | 如果 NTS_SSL 為 true,此為 SSL 憑證到期日前的剩餘天數的黃色狀態臨界值。 |
| NTS_STATUS_THREAD_MAX_RUN_RED | 120 | 如果執行緒執行的時間比此分鐘數更久,則會視為「紅色」狀態。 |
| NTS_STATUS_THREAD_MAX_RUN_YELLOW | 30 | 如果執行緒執行的時間比此分鐘數更久,則會視為「黃色」狀態。 |
效能注意事項
執行性能檢查指令時,高效率系統效能並非絕對重要,因為它只是定期執行(依預設為 15 分鐘)。 不過,因為此處理程序經常執行,所以應該盡量有效率。判斷系統是否處於限制狀態的新方法對於效能很重要,因為每次新裝置同步化開始進行時,便會執行該方法。
效能的另一個重要層面是其他統計資料的收集。 因為現行程序已用批次方式寫入統計資料,所以其他統計資料的新增不應該會導致任何其他的效能降低。
Java 記憶體用量將減輕,因為有快取記憶體可供每 15 分鐘擷取的 CPU 和記憶體統計資料(總計 100 個項目)使用。與整個系統的記憶體用量相比較,這只是一小部分的記憶體用量。