文字コードについての私見
id:aufheben:20071227 で書いた Unicode の不整合性についての私見。
本当は、少なくとも JIS X 0208 で定義されている文字は Unicode におけるコードポイントを厳密に定義しておくべきだったんだろうけど、今となってはどうしようもないので、以下のような方向に進んでもらえると、多少不便は解消されるんじゃないだろうか。
「〜」を例にとると、
後者は、現行の変換ツールの多くが、
- Shift_JIS → UTF-16
8160 → 301C - UTF-16 → Shift_JIS
301C → 8160
FF5E → × - Windows-31J → UTF-16
8160 → FF5E - UTF-16 → Windows-31J
301C → ×
FF5E → 8160
となっているのを、
- Shift_JIS → UTF-16
8160 → 301C - UTF-16 → Shift_JIS
301C → 8160
FF5E → 8160 - Windows-31J → UTF-16
8160 → FF5E - UTF-16 → Windows-31J
301C → 8160
FF5E → 8160
のようにする。
これで、少なくとも Shift_JIS (Windows-31J) → Unicode → Shift_JIS (Windows-31J) という変換で、きちんと復元することができる。
現行でも、Windows-31J の「IBM拡張文字」と「NEC選定IBM拡張文字」に重複登録されている文字が同じような扱いになっている。