mecabで遊んだ記録

投稿者: | 2014年2月1日

mecabで遊ぼうとしたら思いのほか苦戦しまくったのでメモ

環境

Mac OSX 10.9.1
Macports
Ruby2.0

苦戦1 Mecabの導入

なんだかパッケージが錯綜していて、Macportで何をインストールすればいいのかわからない。何も考えずにmecabをインストールすると文字化けする。Google先生に聞くと、エンコーディングの問題で、mecab-ipadic-utf8をインストールすればいいらしいが、うまくいかない。variants mecabすると、mecab +utf8 の代わりにmecab-utf8推奨と書いてあるので、最終的には mecab-base, mecab-ipadic-utf8, mecab-utf8 を入れたら動いた。

苦戦2 mecab-rubyの導入

mecab-ruby に関しては、gemが用意されていないので、気楽に gem install することができない。または、gemからインストールする場合は、mecabのバージョンを下げなければならないそうなので、面倒である。
そこで、ソースからwgetしてインストールする。面倒なので、他にもRubyとmecabのバインディングがないか探したところ、mecab-extを発見したのはよかった。しかし、これも結局mecab-ruby依存なので、導入に関しては何も楽にならない。

苦戦3 辞書の導入

今回一番苦戦したのがこれ。
ComeJisyoというマイナーな辞書(医療用:come”dic”alの洒落なのだろうがとっさにはわからない)を導入しようとしたところ嵌りまくった。添付のコンパイル済みdicファイルを使おうとしても、mecab -u で読み込んでくれない。もしかするとWindows環境とMac環境の違いに起因するトラブルかも知れないと思い、CSVファイルから自分で辞書をコンパイルしようとしたが、できない。焦ってファイルを1000行ごとに分割してコンパイルしたら、どうやらCSVファイルの一番最後の方に問題があるらしいことが判明。なんていうことはない最終行のコメントを外してコンパイルしたら辞書が出来上がった。

つづく

カテゴリー: ruby

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です