[mecab] ComeJisyoで遊ぶ

ComeJisyoでGoogle検索してみると587件しかヒットしない。
というのはおいておいて、早速遊んでみる。

ComeJisyoとは、形態素解析器Mecabのための医療辞書である。これを使うと、カルテ上の文章などが解析できてしまうかもしれないと言われている。ここでは医師国家試験の問題文を使用してみよう。

第107回国家試験D問題30問

82 歳の女性。胸部絞扼感を主訴に来院した。1か月前から階段昇降時に胸部絞 扼感があり受診した。1人暮らし。生来健康である。ADL は自立している。脈拍 76/分、整。血圧 110/70 mmHg。胸骨右縁第2肋間に収縮期雑音を聴取する。心 電図で左室肥大所見を認める。胸部エックス線写真で心胸郭比 54 %。連続波ドプ ラ法で記録した左室駆出血流速パターンを別に示す。冠動脈造影では 冠動脈に有意な狭窄を認めなかった。

解析開始。まずは名詞だけ取り出してみることにするが、ゴミが混ざってしまう。よくわからないが、Unicode正規化というものをすると解消された。結果こんな感じ。

82,歳,女性,胸部絞扼感,主訴,来院,1,か月,前,階段,昇降時,胸部絞扼感,受診,1,人,暮らし,健康,ADL,自立,脈拍,76,/,分,整,血圧,110,/,70,mmHg,胸骨,右縁,第2,肋間,収縮期雑音,聴取,心電図,左室肥大,所見,胸部,エックス線写真,心胸郭比,54,%。,連続,波,ドプラ,法,記録,左室,駆出,血流,速,パターン

なかなかいい線をいっていると思う。テキスト分類などして遊びたいけど、なかなか暇がなさそう。
アイディアはこう。国家試験の問題を活用して、それぞれの「現病歴」が、一体何科の疾患なのかを分類して学習させる。「消化器科」とか「呼吸器科」とか。

具体的には、Mecab/ComeJisyoを使って現病歴を形態素分類して、ナイーブベイズに持ち込むのが気軽だと思う。

できたら、「現病歴」をぶち込んで、何科の疾患か判別させる。きっとこれは作れるし、精度も相当高くなるはず。大丈夫。クラークさんの仕事を奪おうとしているわけじゃない。時間のある人はぜひ試して欲しいのだ。

とりあえず、Wikipediaのデータを使ってやってみた。ベイジアンフィルターで日本語を分類するのソースをコピペ。
wikipedia の「消化器学」「呼吸器学」の項目を取得して学習データに当てる。

結果

なんとなく正しく選べてるように見える。あからさまなキーワードが入ってるから当たり前か。機械学習って魔法のように聞こえるけれども、やってみると普通のことなんだなあと実感。
ぜひ現病歴のデータでやりたい。