文字コードについての私見 - Aufheben

id:aufheben:20071227 で書いた Unicode の不整合性についての私見。
本当は、少なくとも JIS X 0208 で定義されている文字は Unicode におけるコードポイントを厳密に定義しておくべきだったんだろうけど、今となってはどうしようもないので、以下のような方向に進んでもらえると、多少不便は解消されるんじゃないだろうか。

「〜」を例にとると、

U+301C と U+FF5E はできるだけ似たフォントとすること。
どのエンコーディングでも、U+301C、U+FF5E どちらも区点1-33に該当する文字コードに変換されること。

後者は、現行の変換ツールの多くが、

Shift_JIS → UTF-16
8160 → 301C
UTF-16 → Shift_JIS
301C → 8160
FF5E → ×
Windows-31J → UTF-16
8160 → FF5E
UTF-16 → Windows-31J
301C → ×
FF5E → 8160

となっているのを、

Shift_JIS → UTF-16
8160 → 301C
UTF-16 → Shift_JIS
301C → 8160
FF5E → 8160
Windows-31J → UTF-16
8160 → FF5E
UTF-16 → Windows-31J
301C → 8160
FF5E → 8160

のようにする。
これで、少なくとも Shift_JIS (Windows-31J) → Unicode → Shift_JIS (Windows-31J) という変換で、きちんと復元することができる。

現行でも、Windows-31J の「IBM拡張文字」と「NEC選定IBM拡張文字」に重複登録されている文字が同じような扱いになっている。