ぽっぺん日記@karashi.org
2008-07-16(Wed) [長年日記]
_ 文字コードを簡単に調べるツール、kcodeが便利
今まで文字コードを意識することがなかったのだが、Perlをいじりはじめたら文字コードと否応なしに格闘することになった。
「『有効期限』ってiso-2022-jpのコードでどうなるんだ?」とか悩んでいたのだが、ググったところ、kcodeという非常に便利なツールを見付けた。
使い方は簡単。 ターミナルで
echo "有効期限" | kcode
と打つと、
euc-jp : 有効期限 (有効期限) ====================================================================== cp932 : 974C8CF88AFA8CC0 "\x97\x4c\x8c\xf8\x8a\xfa\x8c\xc0" euc-jp : CDADB8FAB4FCB8C2 "\xcd\xad\xb8\xfa\xb4\xfc\xb8\xc2" iso-2022-jp : 1B24424D2D387A347C38421B2842 "\x1b\x24\x42\x4d\x2d\x38\x7a\x34\x7c\x38\x42\x1b\x28\x42" ucs-2be : 670952B9671F9650 "\x67\x09\x52\xb9\x67\x1f\x96\x50" utf8 : E69C89E58AB9E69C9FE99990 "\xe6\x9c\x89\xe5\x8a\xb9\xe6\x9c\x9f\xe9\x99\x90" http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=670952B9671F9650
多種にわたる日本語の文字コードを出力してくれる。 iso-2022-jpのコードは、\xHH記法では
\x1b\x24\x42\x4d\x2d\x38\x7a\x34\x7c\x38\x42\x1b\x28\x42"
と分かる訳だ。
スクリプトはPerlで書いてあり、処理にはJcodeか、Encodeを使うということなので、Perl 5.8以降であれば、そのまま使えるはず。
これでPlaggerいじりも進むぜ(と希望)。
[ツッコミを入れる]
[]
本日のPingbacks(全0件)



まで頂ければ幸いです。
ホアズブレスの龍追い人 (創元推理文庫 F マ 9-2)(パトリシア A.マキリップ)
告白(湊 かなえ)
テロリズムを理解する―社会心理学からのアプローチ
フロスト気質 上 (創元推理文庫 M ウ)(R.D.ウィングフィールド)
フロスト気質 下 (創元推理文庫 M ウ)(R.D.ウィングフィールド)
新編真ク・リトル・リトル神話大系 4 (4)(H.P.ラヴクラフト)
速水螺旋人の馬車馬大作戦(速水螺旋人)