いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/09/25

朝8時に起きた。今日も朝から研究室。

午前中は就活サイトの面談。自己 PR ページをどう充実させればいいか、について自分の強みに則した意見をいただく。今度のイベントは応募人数の半分ぐらいしか参加できないらしい。専攻に通ればいいんだけど。。

午後はまず進捗報告ミーティング。いい感じの結果 (t検定で有意な結果) が出てきて、やっと方向性が定まってきた。あとは手法をブラッシュアップしていきたい。

その後は輪講。今日は%さんによる、1000s プロセスまでスケールした Gamma Database Machine Project についての発表。shared memory だとスケールアウトに限界があるので shared nothing を採用したり、アルゴリズムをいろいろ工夫したりという話だった。これはネットワークトポロジーに Token ring を採用したりメモリサイズが 2MB だったりする時代の話なので、1000s 並列ってどのあたりに需要があったのかは少し気になった。

夕方は今度の研究室合宿で紹介する論文を漁る。個人的には最近エンティティがキテるので、この前の IR reading でも紹介されていた次の論文を読むことにする。

Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach. SIGIR. 2018.

この論文は検索クエリ中の entity をできるだけ被覆 (包括) するような検索手法を提案している。例えば "knowledge base for document retrieval" という普通のキーワード検索に検索クエリを投げたなら、"knowledge base" "document retrieval" の片方だけが多くマッチした文章も出てきてしまうが、それじゃあ不十分でしょうと問題提起をしている。