« Visual C# / VB 2008 Keybinding ポスター | トップページ | 「栗は木材界の野生児」 »

2007年11月15日 (木)

[Oracle] UTF8 is not UTF-8

古い話なんですが、 すぐに見失ってなぜか毎回探し回るので、 メモ f(^^;

Oracle Database インストレーション・ガイド
10gリリース2(10.2)- Oracle Databaseグローバリゼーション・サポートの構成

AL32UTF8 は、 (…中略…) 標準 UTF-8 エンコーディングと同等です。

(…中略…)  UTF8 (ハイフンなし) (…中略…) UTF-8 と混同しないでください

「混同しないでください」 って言われても。 どこがどう違うのか、 書いといてくれないとねぇ…

Oracle9i Database Globalization Support Guide
Release 2 (9.2) - Locale Data

AL32UTF8
Unicode 3.1 UTF-8 Universal character set

UTF8
Unicode 3.0 UTF-8 Universal character set, CESU-8 compliant

Note:
CESU-8 defines an encoding scheme for Unicode that is identical to UTF-8 except for its representation of supplementary characters. In CESU-8, supplementary characters are represented as six-byte sequences that result from the transformation of each UTF-16 surrogate code unit into an eight-bit form that is similar to the UTF-8 transformation, but without first converting the input surrogate pairs to a scalar value.

もっと分かりやすいのは… f(^^;

XMLと文字メーリングリスト 2001/12/16 17:05
From:Shigemichi Yazawa

これは Oracle で使われている UTF-8 もどき encoding です。 Oracle 仕様の UTF-8 では、 Surrogate の各ペアを機械的に UTF-8 に変換して、 supplementary character は 6byte で表現されます。 実際はこれはただの内部コードなんかじゃなくて、 Oracle から文字列を UTF-8 で取って来たらこの encoding になります。
(…中略…)
CESU-8 は以前は UTF-8S と呼ばれていました。

※ このメールの時点では、 まだ AL32UTF8 は存在せず、 「Oracle 仕様の UTF-8」 といえば、 CESU-8 のことでした。

|

« Visual C# / VB 2008 Keybinding ポスター | トップページ | 「栗は木材界の野生児」 »

プログラミング」カテゴリの記事

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: [Oracle] UTF8 is not UTF-8:

« Visual C# / VB 2008 Keybinding ポスター | トップページ | 「栗は木材界の野生児」 »