MeCab+RMeCabインストール - OS X v10.9.2

日本語テキストの形態素解析に触れてみたい、と「Rによるテキストマイニング入門」を購入して読んでいたものの、実作業には入らないまましばらく経っていた。

作者: 石田基広
出版社/メーカー: 森北出版
発売日: 2008/12/16
メディア: 単行本（ソフトカバー）
購入: 26人クリック: 342回
この商品を含むブログ (34件) を見る

先日、この問題がCodeIQに出題されていたのもあり、入り口にふさわしいよいタイミング、と手を動かしはじめた（実際は回答期限後に作業を始めたので、CodeIQには未回答）

<a href="https://codeiq.jp/ace/masui_yuichiro/q506">メロスを形態素解析せよ | CodeIQ</a>

MeCabとIPA辞書をつかって「走れメロス」を形態素解析してみましょう。

まずは環境を整えるところまでをこのエントリで。実際に解析してみた結果は：

<a href="http://masagrant55.hatenablog.com/entry/2014/04/03/002520">MeCab+RMeCabで「走れメロス」を形態素解析 - always one step forward</a>

環境

Mac（OS X Mavericks 10.9.2）
Xcode 5.1
Command Line Tools for Xcode
- Xcodeだけでなくこれも要インストール。手順は下記が参考になる
- MavericksでCommand Line Tools for Xcodeをインストールする
R 3.0.3
- 2014/03現在最新。なるべく最新のものを使用したほうがよい
MeCab 0.996
RMeCab_0.9995 (R-3.0.3)
- 2014/03/10にリリースされたバージョン。なるべく最新のものを使用したほうがよい

MeCab、RMeCabとも、他のツールと異なり、LinuxやWindowsでも環境は比較的整えやすい（と思う）

MeCab（+IPA辞書）インストール

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
情報充実、開発者工藤拓さんによるサイトからダウンロード
- MeCab本体：mecab-0.996.tar.gz
- IPA辞書：同サイト「IPA辞書」の「ダウンロード」リンクよりダウンロード
以下、両ファイルのダウンロード先を ~/Downloads と仮定
Web上の情報によれば ./configure の際に --with-charset="utf-8" 指定をしておいたほうがよい

# MeCabインストール
$ cd ~/Downloads
$ tar xvzf mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure --with-charset="utf-8"
$ make
$ sudo make install

# PATHの確認
$ echo $PATH
# もし /usr/local/bin が含まれていなければ、以下を実施
$ export PATH=/usr/local/bin:PATH
$ cd ~
$ echo '/usr/local/bin:$PATH' >> .profile

# IPA辞書インストール
$ cd ~/Downloads
$ tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset="utf-8"
$ sudo make install

# MeCab実行できるか確認
$ which mecab
/usr/local/bin/mecab  # と表示されればOK

$ mecab

大きなすももも大きくないすももももものうち # 適当に日本語を入力してEnter

大きな   連体詞,*,*,*,*,*,大きな,オオキナ,オーキナ
すもも   名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
大きく   形容詞,自立,*,*,形容詞・イ段,連用テ接続,大きい,オオキク,オーキク
ない  助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
すもも   名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも  名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち  名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
# と形態素解析結果が表示されればOK

あとは、以下のような諸言語から呼び出す形で使用可能。いずれもさすがというか、シンプルに洗練された形でこの形態素解析エンジンを扱える

http://taku910.github.io/mecab/bindings.html

各種スクリプト言語 (perl, ruby, python, Java) から, MeCab が提供する形態素解析の機能を利用可能です.

Rインストール

公式サイトからパッケージをダウンロードしてインストール

RMeCabインストール

石田基広さんが作成されたRのパッケージ、RMeCabであれば、解析結果をRのオブジェクト（リストや配列など）に格納でき、その後の分析（頻度分析などいろいろ）へ持っていきやすくなっている。今回はこれを導入して使うことにした

RとLinuxと... - RMeCab
- 著者石田さんのサイト。Windows/Linux/Mac OSXプラットフォームへのインストール手順、本に未掲載の関数など情報豊富
- RMeCab - Macintosh 版バイナリのインストール方法

基本的に↑このサイト記載の手順通り。注意点も色々記載されており有用

Rを起動し、コンソールから以下を実行

# RMeCabインストール
>  install.packages ("RMeCab", repos = "http://rmecab.jp/R")

# 以下はログとして表示される
URL 'http://rmecab.jp/R/bin/macosx/contrib/3.0/RMeCab_0.9995.tgz' を試しています 
Content type 'application/x-gzip' length 127644 bytes (124 Kb)
開かれた URL 
==================================================
downloaded 124 Kb

ダウンロードされたパッケージは、以下にあります 
/var/folders/wp/qv_kld957cgb8t3t4sscgz_40000gn/T//Rtmptnp17Y/downloaded_packages 

> library(RMeCab)  # パッケージを読み込み、使用可能な状態にする

library(RMeCab) の代わりに以下でもよい：
- Rのメニュー[パッケージとデータ]→[パッケージマネージャ]
- 一覧中のパッケージ「RMeCab」にチェックを入れ「未ロード」→「ロード済み」にする

書籍「Rによるテキストマイニング入門」には、ローカルへ一度ダウンロードしたファイルを→パッケージマネージャで指定、という手順が記載されている。しかし現在はWebサイト上にレポジトリが準備され repos = "http://rmecab.jp/R" 指定だけでインストール可能になっている。シンプルで便利

あとは、書籍やRMeCabFunctionsに記載の関数群を使える状態になる。たとえば：

# RMeCabC関数の使用例
> library(RMeCab)
> kekka <- RMeCabC("すもももももももものうち")
> unlist(kekka)
    名詞     助詞     名詞     助詞     名詞     助詞     名詞 
"すもも"     "も"   "もも"     "も"   "もも"     "の"   "うち"