mecabコマンドの結果をparseしやすい形式にする
MeCabの出力はデフォルトで以下のようになるが、 これが意外と扱いづらい。
$ echo 新しいスクエニのゲームを買った。 | mecab 新しい 形容詞,自立,*,*,形容詞・イ段,基本形,新しい,アタラシイ,アタラシイ スクエニ 名詞,一般,*,*,*,*,* の 助詞,連体化,*,*,*,*,の,ノ,ノ ゲーム 名詞,一般,*,*,*,*,ゲーム,ゲーム,ゲーム を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 買っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,買う,カッ,カッ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 EOS
LTSV形式での出力
MeCabのオプションを変更すると、以下のようにLTSV形式で出力できる。
$ echo 新しいスクエニのゲームを買った。 | mecab -F "surface:%m\tpos:%f[0]\tpos1:%f[1]\tpos2:%f[2]\tpos3:%f[3]\tcform:%f[4]\tctype:%f[5]\tbase:%f[6]\tread:%f[7]\tpron:%f[8]\n" -U "surface:%m\tpos:%f[0]\tpos1:%f[1]\tpos2:%f[2]\tpos3:%f[3]\tcform:%f[4]\tctype:%f[5]\tbase:%f[6]\tread:\tpron:\n" -E "" surface:新しい pos:形容詞 pos1:自立 pos2: pos3: cform:形容詞・イ段 ctype:基本形 base:新しい read:アタラシイ pron:アタラシイ surface:スクエニ pos:名詞 pos1:一般 pos2: pos3: cform: ctype: base: read: pron: surface:の pos:助詞 pos1:連体化 pos2: pos3: cform: ctype: base:の read:ノ pron:ノ surface:ゲーム pos:名詞 pos1:一般 pos2: pos3: cform: ctype: base:ゲーム read:ゲーム pron:ゲーム surface:を pos:助詞 pos1:格助詞 pos2:一般 pos3: cform: ctype: base:を read:ヲ pron:ヲ surface:買っ pos:動詞 pos1:自立 pos2: pos3: cform:五段・ワ行促音便 ctype:連用タ接続 base:買う read:カッ pron:カッ surface:た pos:助動詞 pos1: pos2: pos3: cform:特殊・タ ctype:基本形 base:た read:タ pron:タ surface:。 pos:記号 pos1:句点 pos2: pos3: cform: ctype: base:。 read:。 pron:。