ぼろぼろ平原

困った

2017-01-01から1ヶ月間の記事一覧

gensim.corpora.Dictionaryの単語IDを辞書順にする

gensimのcorpora.Dictionaryは単語IDがランダムに振られてしまい困るのでSortableDictionaryというものを作った。 from gensim import corpora class SortableDictionary(corpora.Dictionary): def __init__(self, *arg, **kwargs): super().__init__(*arg, …

Pythonで大きいファイルを読み込む時にプログレスバーを表示

プログレスバーの表示には tqdm を使う。 tqdmのインストール $ pip install tqdm プログレスバーを表示するプログラム from tqdm import tqdm import os # ファイル名 filename = "sugoku_dekai_file.txt" # ファイルサイズを取得 filesize = os.path.getsi…

mecabコマンドの結果をparseしやすい形式にする

MeCabの出力はデフォルトで以下のようになるが、 これが意外と扱いづらい。 $ echo 新しいスクエニのゲームを買った。 | mecab 新しい 形容詞,自立,*,*,形容詞・イ段,基本形,新しい,アタラシイ,アタラシイ スクエニ 名詞,一般,*,*,*,*,* の 助詞,連体化,*,*,…