日文及繁體中文 EUC 和 UCS-2 字碼集考量

「延伸 UNIX 程式碼 (EUC)」表示一組一般編碼規則,可在 Linux® 及 UNIX 作業環境中支援一到四個字集。 編碼規則基於編碼 7 位元和 8 位元資料的 ISO 2022 定義,其中使用控制字元來區隔部分字集。 基於 EUC 的代碼集符合 EUC 編碼規則,但也會識別與特定實例相關聯的特定字集。 例如,適用於日文的 IBM-eucJP 字碼集根據 EUC 編碼規則,是指日本工業標準字元的編碼。

在 EUC 字碼頁下執行且字元編碼長度大於兩個位元組時,圖形 (純雙位元組字元) 資料的資料庫及用戶端應用程式支援受到限制。 Db2® 產品會對圖形資料實作嚴格規則,要求所有字元的寬度必須正好兩個位元組。 這些規則不容許日文及繁體中文 EUC 字碼頁中有許多字元。 為了克服此狀況,同時在應用程式層次及資料庫層次提供支援,以使用另一個編碼方法來代表日文及繁體中文 EUC 圖形資料。

在日文或繁體中文 EUC 字碼頁下建立的資料庫實際上會使用 Unicode UCS-2 字碼集來儲存及操作圖形資料,這是一種雙位元組編碼方法,是完整 Unicode 字元儲存庫的適當子集。 同樣地,在那些字碼頁下執行的應用程式會將圖形資料以 UCS-2 編碼資料傳送至資料庫伺服器。 有了此支援,在 EUC 字碼頁下執行的應用程式可以存取與在 DBCS 字碼頁下執行的應用程式相同類型的資料。 與 UCS-2 相關聯的 IBM定義字碼頁 ID 是 1200 ,而相同字碼頁的 CCSID 號碼是 13488。 eucJP 或 eucTW 資料庫中的圖形資料使用 CCSID 號碼 13488。 在 Unicode 資料庫中,將 CCSID 1200 用於 GRAPHIC 資料。

Db2 資料庫系統支援所有可使用 UCS-2編碼的 Unicode 字元,但不會執行任何字元組合、分解或正規化。 如需 Unicode 標準的相關資訊,請參閱 Unicode Consortium 網站 www.unicode.org,以及 Addison Wesley Longman , Inc. 出版的最新版 Unicode 標準書籍。

如果您使用這些字集來使用應用程式或資料庫,則可能需要考量處理 UCS-2 編碼資料。 將 UCS-2 圖形資料轉換為應用程式的 EUC 字碼頁時,資料長度可能會增加。 顯示大量資料時,可能需要在一系列片段中配置緩衝區、轉換及顯示資料。

下列各節討論如何處理此環境中的資料。 對於這些區段,術語 EUC 僅用來指日文和繁體中文 EUC 字集。 請注意,討論不適用於 Db2 韓文或簡體中文 EUC 支援,因為這些字集中的圖形資料是使用 EUC 編碼來表示。