LinuxにMeCabをインストールする手順を紹介します。
最終的には、Pythonを使用して「マルコフ連鎖」を使用して自動文章作成ツールを作成したいと思います。
Pythonのインストール手順は以下になります。
MeCabとは?
MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓(さん)によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。
開発開始当初はChaSenを基にし、ChaSenTNGという名前で開発されていたが、現在はChaSenとは独立にスクラッチから開発されている。ChaSenに比べて解析精度は同程度で、解析速度は平均3-4倍速い。 Wikipediaより
すごいざっくり説明すると「文章を意味単位で単語にぶつ切りにする」ライブラリです。
ライブラリの由来も自分の好きな食べ物の「めかぶ」ということです笑
こういうところが工藤さんが一流の開発者であることが伺えます(主観)
インストール環境
今回のインストール環境は以下になります。
- CentOS:CentOS Linux release 7.4.1708 (Core)
- MeCab:MeCab 0.996
- IPA 辞書:ipadic-2.7.0-20070801
MeCabには辞書が必要になります。
例えば、「私は朝にご飯を食べます。」という言葉は、 「私」、「は」、「朝」、「に」、「ご飯」、「を」、「食べる」、「ます」という単語に分けることが出来ます。
文章を分割するために、どこで分割するか?それが動詞か?名詞か?などを識別するために必要になります。
インストール手順
インストールの流れは以下になります。
- 必要なライブラリのインストール
- MeCabのインストール
- MeCab用の辞書をインストール
- Pythonへのバインディング
まずはMeCabのコンパイルには、gcc-c++が必要になります。
yum install gcc-c++
ちなみgcc-c++がないと以下のエラーが出力されます。
configure: error: Your compiler is not powerful enough to compile MeCab.
If it should be, see config.log for more information of why it failed.
次にMeCabのインストールをします。
以下のコマンドをコピペして実行します。
cd /usr/src
git clone https://github.com/taku910/mecab.git
cd mecab/mecab
./configure --enable-utf8-only
make & make check
make install
正常にインストールが出来たら↓で確認します。
$ mecab -v
mecab of 0.996
次にMeCab用の辞書をインストールします。
まずはダウンロードからIPA 辞書「mecab-ipadic-2.7.0-20070801.tar.gz」をダウンロードします。
wgetコマンドですとエラーとなるので注意してください。
ダウンロードした「mecab-ipadic-2.7.0-20070801.tar.gz」をCentOSに配してします。
配置しましたら下のコマンドでインストールします。
tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801
./configure --with-charset=utf8
make
make install
これでインストールは完了です。
インストール確認
インストールの確認をしてみたいと思います。
mecab
<文字列>
↓が実行ログです。
$ mecab
これはMeCabインストールのテストです。
これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
MeCab 名詞,固有名詞,組織,*,*,*,*
インストール 名詞,一般,*,*,*,*,インストール,インストール,インストール
の 助詞,連体化,*,*,*,*,の,ノ,ノ
テスト 名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS
以上でLinuxへのMeCabのインストール手順は終了です。お疲れ様です。
参考:Python3で形態素解析エンジンMeCabを使えるようにする(2016年3月版)
自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)posted with カエレバ
奥野 陽,グラム・ニュービッグ,萩原 正人 翔泳社 2016-03-05