いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/11/13

今日も朝から研究室。

今日は午後にミーティング。主に少数のレファレンス文章をクエリの重み付けにどのように用いるかについて話し合う。先生より思いがけないアイデアを出していただいて、一気に研究が加速しそうな感じ。

その後は # 社の社員さんとミーティング。

2018/11/12

今日も朝から研究室。

なかなか結果が出ない。
普通の Learning to Rank で各特徴量の重みを静的に決めるのは今回のタスクには向いていないと思い、Online Learning to Rank を試してみたり、特徴量として BM25 や TFiDF を入れたりとかいろいろ試してはみたけど...

夜は % のバドミントンへ。
もう少し前の方でスマッシュをさばけるようになりたいな。

2018/11/09

今日も朝から研究室。

午前中は演習のミーティング。今はニュースのトピックセンテンスから穴埋めクイズを作るというタスクをしていて、どの場所を抜けばクイズとして面白いか、という議論をする。

午後はすぐ大津に戻って、パスポートを取る作業。まず本籍がある京都で戸籍謄本をもらい、そのあと大津に戻りパスポート用の写真を取る。最後にパスポートセンターでパスポートを申請 (これは意外とあっさりもらった)。
それにしても海外自体が初めてなのですべての作業が新鮮。

2018/11/07

朝はまずインターンのコーディング面接があった。
自分が今解こうとしている方針を伝えきれずに、少し悔しい思いをする。

昼からは研究室。
ただ今日は眠気が強くてそこまで成果を出せなかった。

昼寝をしたあとは家でだらだら論文読み。改めて SIGIR の Patent Retrieval の short paper を読んでいると、また前とは違った印象を受けた。最初に Oracle Query として目標となる値を定めているところがうまい。

2018/11/05

今日も朝から研究室。

午前中はいくつか事務作業をして、昼イチでミーティング。
ミーティングは前回から%さんも加わることになって、より一層説得力のある説明が求められる。
研究自体は今週進めてきた方向のまま進めることに。

2018/11/02

今日も朝から研究室。

午前中は IR における Transductive learning について調べるために論文を調査。

Szummer, M., & Yilmaz, E. **Semi-supervised learning to rank with preference regularization.** CIKM. 2011.
一般的な Bradley-Terry Model を拡張した関数を最尤推定することで、少ないデータからでも効率的にランキング関数を最適化するというもの。具体的には、最尤推定に「類似度が高いデータはランキングも似ている」という仮定を敷いて
 C = \sum{\hat{q}_{ij}} \log (1- P(i\ \succ j)) (1-P(j \succ i))
という項を目的関数に追加している。

ちなみにこの手法ではランキング関数の関数形については設定する必要があり、論文では3層 NN を用いていた。ここらへんは自由度がある (論文でも例えばガウス仮定を使うこともできる、というか任意の関数を使える)、ので、この手法を応用するとするなら、次は今回の問題に適した関数を見つけないといけない。