「JustTechTalk#02 形態素解析のあれやこれや」に参加した

先日、ジャストシステム主催の技術寄りトークセッションを聴いた。形態素解析器の（いろいろな言語での）開発者が複数集まり、タイトル通りあれやこれやと語る会だった。

<a href="https://justsystems.doorkeeper.jp/events/27174">JustTechTalk#02 形態素解析のあれやこれや@ジャストシステム</a>justsystems.doorkeeper.jp

以下、参加したときのメモを発掘できたので（1ヶ月経ちもはや断片的なメモでしかないが）思い出しがてら：

ジャストシステムJMAT

教師あり、教師なし形態素解析
- 教師あり＝ラティス構造を使用
CRFはHMMより高精度。ただしメモリをかなり食う
小メモリで済むCRF学習器をつくった
辞書チームの解析
- 言い回しコーパス
文中の教えたい部分だけアノテーション学習
分野適応も実施
ベース学習、能動学習、部分アノテーション学習
- 部分アノテーション学習には、誤解析しそうなテキスト群を使う
辞書チーム 20-30人
- JMAT開発 5-6人

教師あり学習の肝は‥

小規模でも高品質なコーパス
人手による基準揺れが少ない＝高品質

ピタジョブつくりました

NLP技術使ってます

<a href="https://lets.pitajob.jp">ピタジョブ | ぴったりが見つかる転職･就職･求人情報サイト</a>

はてな浅野さん @takuya_a

JavaScript 形態素解析器 kuromoji.js
Node.js
- インストール簡単。jsonが返るのがよい

<a href="https://github.com/takuyaa/kuromoji.js">takuyaa/kuromoji.js</a>

stop-the-world: ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った

なぜJavaScript？

どこでも動く
Typed arraysサポートしているから
バイト配列
- 高速、高効率なデータ構造
Browserify いいですよ
- サーバサイドNode.jsを、クライアントサイドで動くコードに変換できる
JavaScriptしんどいところ
- △基本的なデータ構造がないといっていい
- 文字コードutf16
  - 「1文字なのに2文字に見える」

@ikawaha さん @ikawaha

形態素解析器 Kagome
バイナリ化した辞書同梱

<a href="https://github.com/ikawaha/kagome">ikawaha/kagome</a>

<a href="http://qiita.com/ikawaha/items/ff27ac03e22b7f36811b">Pure Go で辞書同梱な形態素解析器 kagome を公開してみました - Qiita</a>

業を煮やしてGoをはじめる

Go はbetter C
- 構造体やクラスなど、いろいろ「ありません」
- クロスコンパイル
  - MacでWindows版をコンパイル可能
- オンラインの実行環境あり
△辞書のバイナリ化が大変だった

@moco_beta さん @moco_beta

Python 形態素解析器 janome
Mecab辞書を内包
未知語処理がすこしちがう

http://mocobeta.github.io/janome/

<a href="https://github.com/mocobeta/janome">mocobeta/janome</a>

http://mocobeta-backup.tumblr.com/post/115843098157/pure-python-janome

Pythonいいところ・しんどいところ

ライブラリ豊富
3系だと文字列やバイト配列が扱い楽
ウィンドウズにmecabいれるの大変、に助け
2系のサポートが大変
- パフォーマンス工夫しないと遅い

高岡一馬さん @klmquasi

sssla 茶筅のruby clone
Ruby1.6時代に開発

<a href="https://github.com/kazuma-t/sssla/">kazuma-t/sssla</a>

小筌(Sssla) は Ruby で書かれた茶筌(ChaSen)互換の形態素解析器です。

小筌は「さささら」と読みます。

形態素解析器の歴史

1990 松本先生カスタマイズ可能な形態素解析器
1991 黒橋先生 JUMAN Cでリライト
1996 茶筅がフォーク
2001 工藤拓さん chasentng
2006 Mecabリリース

Q&A

皆さんが使っているエディタ/IDE
- Vim, Emacs, IntelliJ IDEA

<a href="https://www.jetbrains.com/idea/">IntelliJ IDEA — The Most Intelligent Java IDE</a>

Mecabでなくkuromoji選んだ理由？
- 辞書を実行環境とそろえたかった
- 両者は未知語処理が異なる

感じたこと

この分野ではおそらく常識であろう、形態素解析器発展の歴史が語られ（高岡さん）、知らない点も多く、いろいろ改めて知ることができた
一般的に「日本語の形態素解析は難しい」とされ、歴史的にさまざまな手法やツール（解析器）が開発されてきたことを知った。ここまで開発が進むのは、やっぱり日本語圏ならではだろう
形態素解析は、機械翻訳や意味解析をはじめとして「日本語テキストを相手に何かする」場合は必須の処理であり、いまや機械学習の文脈でトピックとしては華やか
- 課題も多いだろうけれど、5年後10年後にこの技術がどの程度まで成熟しているのだろう、という点にはとても興味がある
そもそも日本語をネイティブに話せる人の脳であれば、必要に応じて形態素解析を頭の中で（おそらく）ぱぱっと行えている。この能力を計算機に与えることは高等な研究テーマだろうと思っていた
- しかし最近になり、能力ある人々によって、いろんな言語で実装が行われ始めている、ということがわかった
- つまり、完全なるブラックボックスの時代から、それなりに「こなれてきた」技術とも言えそうだ
ジャストシステム
- これまでは何となく一太郎やATOKのイメージが強かった
- 改めて考えれば、日本語入力を司るIMEは形態素解析なくして機能するものでもなく、自然言語処理に力を入れてきたのは自然な流れだよなと感じた
ピタジョブの実例は、あらためて考えると面白い。たくさん集まる求人情報が、NLP技術の対象になり始めているということ
- 住宅賃貸情報、中古自動車情報、Web検索クエリ、医療カルテ、などもそのうち（orすでに？）対象になり始めるのだろうな
- 昨今話題のAIの発展とはまた少し違う軸で、着実に世の中を便利にする技術であることは間違いなさそう