形態素解析って?
ひとことで言うと、文を品詞に分解することです。
- 特定の文章の中で、どれだけ名詞が出てきているか?
- 中でも繰り返し使われている単語はなにか?
といったことがわかります。うまく使えば、SEOやテキストマイニングに利用できそうです。
インストールしてみる
インストールに際して、参考にさせていただいたのは、こちらの記事です。一番わかりやすかったです。ありがとうございます。
Kobito – MacにMecabをインストールする (2013.3) – Qiita
MeCab本体のダウンロード
MacにMeCabをインストールする場合、本体と辞書の両方のインストールが必要です。
まずは下記のリンクからMeCab本体をDLしましょう。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
このページでDLします。
辞書のダウンロード
次に辞書をインストールします。
こちらからダウンロードします。(※前述のリンクと同様です)
下部のIPA辞書の「ダウンロード」 を押して下記のダウンロードページに飛びます。
以上でダウンロードは完了です。次はインストールに移ります。
MeCab本体のインストール
インストールが済んだら、Terminalで下記の手順を実行します。
cd ~/Downloads tar zxfv mecab-0.996.tar.gz cd mecab-0.996 ./configure make make check
実行した結果
done! precision recall F LEVEL 0: 12.8959(57/442) 11.8998(57/479) 12.3779 LEVEL 1: 12.2172(54/442) 11.2735(54/479) 11.7264 LEVEL 2: 11.7647(52/442) 10.8559(52/479) 11.2921 LEVEL 4: 11.7647(52/442) 10.8559(52/479) 11.2921 PASS: run-cost-train.sh ================== All 3 tests passed ================== make[1]: Nothing to be done for `check-am'. Mac:mecab-0.996 tfuji$
こんな感じで表示されます。あとは
sudo make install
でインストールが完了します。
MeCab辞書のインストール
次は辞書のインストールです。下記の手順で完了です。
cd ~/Downloads tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz cd mecab-ipadic-2.7.0-20070801 ./configure --with-charset=utf8 make sudo make install
こちらは出力結果は省略しますね。
MeCabのテスト
Mecabと入れた後、定番の文言らしい「すもももももももものうち」と入力します。
mecab すもももももももものうち
結果
Mac:mecab-ipadic-2.7.0-20070801 tfuji$ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS
無事できました。次はRのパッケージであるRMeCabをインストールしてみます。