2018/07/31 - いないち日記

朝7時に起きた。今日も朝から研究室。

午前中は研究の続き。思いのほか特許は文章ごとに Expand するべき単語が異なっていて、文章をクラスタ単位で見る伝播型検索は厳しい.. というのが率直な感想。
ということで次は文章を一括してざっと取ってきて最後に TF-iDF の類似度を取るという戦略を取ってみたけど、これもなかなかうまくいかず。

アイデアに詰まったので、今日も論文を見てみる。

Xue, X., & Croft, W. B. Automatic query generation for patent search. CIKM. 2009.

これは TF-iDF の代わりに Language model でクエリを評価したモデルを特許のクエリ生成に用いたもの。description/title/abstract/claim のどの部分をクエリ生成に使用すればいいかという比較があったり。

夕方はビッグデータ解析で、&先生による深層学習時代の自然言語処理入門。いままで名前程度しか知らなかった用語・技術の概念がたくさん知れてよかった。
特に面白いなと思った点は、

言語は記号の列で、画像 (RGB 値の配列) のような物理量ではない。自然言語処理の大きな課題は、この言語をどうやって物理量に落とし込むか。
単語の Embedding における学習則 (CBoW とか skip-gram) は言語学で提唱されてい分布仮説 (単語の意味はその周辺語で決まる) の自然なモデル化。
文法的な構造を考慮した文章の embedding 方法として Recursive Neutral Net (RvNN) がある。これは文章の句構造の構文木をボトムアップで評価していく手法。
最近は CNN も自然言語処理で用いられている。CNN の特徴から局所変換に robust.

というかんじ。