2018/08/02
朝5時に起きた。今日も朝から研究室。
朝のうちは布団の上で作業をする。Pseudo Relevance Feedback を用いた手法でいい Recall が出たと思ってテンションが上っていたけど、冷静になって見直してみたら実験でミスがあったことに気づいた。
昼前に大学に行って、昼ごはんは$さんと阪大の学食でごはん。またいろいろとお仕事を頂いた。
続いて昼過ぎから%さんと#先生とミーティング。自分の報告はなかなか良い結果が出ないです、というだけだった。
そこでミーティング中に出た案でいろいろ実験してみると、どうも expansion と reduction を場合によって使い分けたほうがいいことがわかった。となると今度はどちらを使うべきか最適な判断を下すという問題に置き換えることができて、そうなると強化学習とか遺伝的アルゴリズムみたいな手法が新たに案として出てきた。首の皮一枚つながった感じ。
夕方は南千里に寄って、夜はビールを久しぶりに飲んで早めに寝た。
2018/07/31
朝7時に起きた。今日も朝から研究室。
午前中は研究の続き。思いのほか特許は文章ごとに Expand するべき単語が異なっていて、文章をクラスタ単位で見る伝播型検索は厳しい.. というのが率直な感想。
ということで次は文章を一括してざっと取ってきて最後に TF-iDF の類似度を取るという戦略を取ってみたけど、これもなかなかうまくいかず。
アイデアに詰まったので、今日も論文を見てみる。
Xue, X., & Croft, W. B. Automatic query generation for patent search. CIKM. 2009.
これは TF-iDF の代わりに Language model でクエリを評価したモデルを特許のクエリ生成に用いたもの。description/title/abstract/claim のどの部分をクエリ生成に使用すればいいかという比較があったり。
夕方はビッグデータ解析で、&先生による深層学習時代の自然言語処理入門。いままで名前程度しか知らなかった用語・技術の概念がたくさん知れてよかった。
特に面白いなと思った点は、
- 言語は記号の列で、画像 (RGB 値の配列) のような物理量ではない。自然言語処理の大きな課題は、この言語をどうやって物理量に落とし込むか。
- 単語の Embedding における学習則 (CBoW とか skip-gram) は言語学で提唱されてい分布仮説 (単語の意味はその周辺語で決まる) の自然なモデル化。
- 文法的な構造を考慮した文章の embedding 方法として Recursive Neutral Net (RvNN) がある。これは文章の句構造の構文木をボトムアップで評価していく手法。
- 最近は CNN も自然言語処理で用いられている。CNN の特徴から局所変換に robust.
というかんじ。
2018/07/30
朝10時に起きた。
今日は一日研究。なかなか Recall が上がらなくてしんどい。
今日はいろんな方針を試行錯誤してだめだったという進捗なので、それをうまい具合にまとめておけば進捗報告で話せるんだけど、それができていなかった。反省。
2018/07/29
朝10時に起きた。
昨日までお酒と食べ物が多かったので、ついに胃を痛めてしまった。
ということで何も胃に入らない。
夕方まで#の家にいて、夕方からは大阪に帰る。
バスの時間までしばらく時間が残っていたので、カフェでしばらく作業をする。いつも思うんだけど、docomo Wi-Fi に全然繋げない... (コピペしたパスワードを貼り付けても間違っていると言われる)