文字コードについての私見

id:aufheben:20071227 で書いた Unicode の不整合性についての私見
本当は、少なくとも JIS X 0208 で定義されている文字は Unicode におけるコードポイントを厳密に定義しておくべきだったんだろうけど、今となってはどうしようもないので、以下のような方向に進んでもらえると、多少不便は解消されるんじゃないだろうか。

「〜」を例にとると、

  1. U+301C と U+FF5E はできるだけ似たフォントとすること。
  2. どのエンコーディングでも、U+301C、U+FF5E どちらも区点1-33に該当する文字コードに変換されること。

後者は、現行の変換ツールの多くが、

となっているのを、

のようにする。
これで、少なくとも Shift_JIS (Windows-31J) → UnicodeShift_JIS (Windows-31J) という変換で、きちんと復元することができる。

現行でも、Windows-31J の「IBM拡張文字」と「NEC選定IBM拡張文字」に重複登録されている文字が同じような扱いになっている。