[雑記] 日本語メールのcharset

こんばんは。
マッサージに言ってきたら、「おじいさん、肩こりひどいですけれど、昔よりほぐれますね」と言われたおじいさんです。
まあ、残業最近してないですからね。
さて、今日は適当な話題で。メールのコードについてです。

日本語のe-mail、ISO-2022-JP以外のcharsetを使うのは是か非か
 http://slashdot.jp/askslashdot/09/01/18/0653225.shtml

そんなもの、是に決まっているでしょう。
ちょいとWebメール関連にかかっている、おじいさんの見解です。

一番大きな理由ですが、ユーザが使いたいと言っているからという所があります。
ま、それを言っちゃこれでおしまいなので、置いておきまして。

現実問題として、使っている奴がいるという事が一番大きい。
たとえば、
 ・ISO-2022-JP範囲外の文字が入っているメールが、ISO-2022-JPで送付されている
  →CP932の文字セットのくせに、charsetがISO-2022-JPとか。
 ・SJIS、EUCで送ってくるメーラーがいる
 ・UTF8で送ってくる人もいる
という事が挙げられます。
生のSJISやEUC、UTF8で送付すると、まれに途中のMTAが上位ビットを落としてくれますが、これはそういうモンだと思って下さい。
ちゃんとQエンコード、Bエンコードしろって言うだけです。実際、UTF8のQエンコードのHTMLメールなんざ珍しくありません。たとえばで言えば、AdobeのHTMLメールとかなんかですかね。

それから、ISO-2022-JPだと、"①"が入らないというのは既知ですね。
NEC外字とかIBM外字とかいう機種依存文字です。
だからといって、ユーザが使わないわけがない。
「機種依存文字を使用しています」とか警告を出されたって、キレるだけです。そうなると、システム部門は使えるメーラーを選ぶ事になります。
まあ、OutlookExpress同士なら簡単ですが。

他には、ISO-2022-JPだと、梯子高とかが使えません。
JIS2004の漢字なんてもっての他。
ここでちょっと考えて欲しいのは、結局どこまで行っても、すべての漢字が収録されるわけではないという事なんですよね。
つまり、どこまで行っても、人名なんかは略字にならざるえないって事です。失礼かもしれませんが、電子メールというものを使う上で「しょうがない」と割り切って頂けると幸いなんですが。
もちろん、名札とか表札とかそういう所ではこだわって欲しいと思います。
後、似たような字体をばらばらに登録するとメールを検索する時に面倒ですよ、と一言言っておきましょう。それをサポートするために、さらに曖昧漢字辞書なんて作り始めたら、死にそうですし。

まあ、実際の所、文字コードには実用上不便のない程度まではちゃんと含んで欲しいと思います。
その辺の議論が今どうなっているかについては、小形氏のブログをヲチしていると結構わかります。

 http://d.hatena.ne.jp/ogwata/


さて、ここまではまあまだ納得がいくのですが、
 ・uuencodeしてくるメーラーがいる
 ・記述しているcharsetと本文のエンコードが違うメーラーがいる
 ・ヘッダをちゃんとMIMEエンコードしていないメーラーがいる。特に添付ファイル名。
 ・MIMEエンコードのやり方が間違ってる、アンチスパム製品
 ・最初からコードがぶっ壊れているSPAM
という輩がいるわけです。

これを全部ちゃんと自動で表示しろって言うのは、正直無理。
それと、はっきり言ってcharsetを信じてはいけません。自動判定が基本です。
それから、各パートごとに独立して判定する事が必要です。
さらに、ユーザが手動でエンコードを切り替えられるようにしておかないと、読めない場合が出てきます。
ユーザがエンコードを切り替えて読めないって事は、最初からコードがぶっ壊れているって奴です。その場合は、ご愁傷様です。


というわけで、メールのcharset、文字コードってのはもう魔窟なんですよね。
温泉旅館というか、忍者屋敷ぐらい落とし穴があって複雑。
この状況下で、charsetはiso-2022-jpのみだ!と叫んだとしても、意味がないです。

あえて叫んだとしても、内部から
 ・ISO-2022-JP外の文字を使いたいんだけれど
と言われておしまいです。

さらに、外国からは
 ・ISO-2022-JPって何?
と言われます。

だから、おじいさんは上に述べたように、現実的ではないと思ってます。
将来的にはUTF-8で統一されるといいナァぐらいには思ってますが、しばらくは無理でしょうねぇ。


まあ、最後の最後はビットマップイメージでやりとりすりゃいいんでしょうか。
検索なんかは、OCRの応用でOKという事で。

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 1

なるほど(納得、参考になった、ヘー)

この記事へのコメント

この記事へのトラックバック