トップ «前の日記(2008-07-15(Tue)) 最新 次の日記(2008-07-17(Thu))» 編集

ぽっぺん日記@karashi.org


2008-07-16(Wed) [長年日記]

曇のち雨

_ 文字コードを簡単に調べるツール、kcodeが便利

今まで文字コードを意識することがなかったのだが、Perlをいじりはじめたら文字コードと否応なしに格闘することになった。

「『有効期限』ってiso-2022-jpのコードでどうなるんだ?」とか悩んでいたのだが、ググったところ、kcodeという非常に便利なツールを見付けた。

使い方は簡単。 ターミナルで

echo "有効期限" | kcode

と打つと、

euc-jp        : 有効期限           (有効期限)
======================================================================
cp932         : 974C8CF88AFA8CC0   "\x97\x4c\x8c\xf8\x8a\xfa\x8c\xc0"
euc-jp        : CDADB8FAB4FCB8C2   "\xcd\xad\xb8\xfa\xb4\xfc\xb8\xc2"
iso-2022-jp   : 1B24424D2D387A347C38421B2842 "\x1b\x24\x42\x4d\x2d\x38\x7a\x34\x7c\x38\x42\x1b\x28\x42"
ucs-2be       : 670952B9671F9650   "\x67\x09\x52\xb9\x67\x1f\x96\x50"
utf8          : E69C89E58AB9E69C9FE99990 "\xe6\x9c\x89\xe5\x8a\xb9\xe6\x9c\x9f\xe9\x99\x90"
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=670952B9671F9650

多種にわたる日本語の文字コードを出力してくれる。 iso-2022-jpのコードは、\xHH記法では

\x1b\x24\x42\x4d\x2d\x38\x7a\x34\x7c\x38\x42\x1b\x28\x42"

と分かる訳だ。

スクリプトはPerlで書いてあり、処理にはJcodeか、Encodeを使うということなので、Perl 5.8以降であれば、そのまま使えるはず。

これでPlaggerいじりも進むぜ(と希望)。

Tags: Perl | | | | | | | Permalink
[]
本日のPingbacks(全0件)

トップ «前の日記(2008-07-15(Tue)) 最新 次の日記(2008-07-17(Thu))» 編集