Q. ファイル中に使われている日本語部分の文字コードの種類を知るには
どうしたらいいですか?
A. port/package に textproc/coco というアプリケーションがあります
(元々は mule に付属していたコマンドで、2002年3月に独立した port
になりました。textproc/coco が見つからなければ mule をインストール
してください)。
EUC・JIS・SJIS のファイルを読ませると、それぞれ
% coco -q < file-euc
In (*euc-china*unix): 3209 bytes
% coco -q < file-jis
In (*junet*unix): 3221 bytes
% coco -q < file-sjis
In (*sjis*unix): 3209 bytes
と出力します。
なお、実際は日本語 EUC コードであるのにも関わらず、euc-china と判定して
しまうというバグがあります。
他にも、
jless を起動して C-g
ack -c
kcc -c
wkf -c
kanji-type (むかし fj.sources に流れた)
jcode.pl (単体のコマンドではないが、perl script 中で
&jcode::getcode(*line) で判定可能)
などの方法があります。
ファイルの文字コードを変換するには [管理番号 1253] を参照してください。
グループ名: kanji-code