いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/10/01

朝8時に起きた。今日も朝から研究室。

今日は明日のミーティングで発表する内容を整理する。なかなかいい結果が出ているものの、少し特許検索に特化しすぎた手法になってしまったので面白みは欠ける。ここまで specific な問題設定で果たして accept されるかどうか...

2018/09/29

朝10時に起きた。今日は土曜日だけど朝から研究室。

今日は Elasticsearch へデータを入れながら、その待ち時間にこんどの研究室合宿で紹介する論文のプレゼンを用意していた。

あまりにも空き時間が多かった (大量のデータを入れていた) ので、プレゼンはある程度完成してしまった。合宿ではこんな感じのもので発表しようと思う。

夜は予定していた幼児がなくなったので、早めに寝た。

2018/09/28

朝7時に起きた。今日も朝から研究室。

今日は一日、POSTECH との合同ミーティング。話した内容は confidential な部分もあるのであまりここでは出せないけど、グラフの話がメイン。
あと、個人的には自然言語SQL に変換するという話は面白かった。

夜は再びレセプション。

2018/09/27

朝9時に起きた。今日も朝から研究室。

午前中は研究と論文読み。
研究の方は一回の実験で待ち時間が多くて、時間の割に出せる成果が少ない。待ち時間の効率的な使い方を模索しないといけない。

夜は韓国の浦項工科大学 (POSTECH) の学生がうちの研究チームにやってきて、そのレセプションをやる。まだ本番のミーティングは始まっていないけど、なかなか打ち解けることができた。

2018/09/26

朝9時に起きた。今日も朝から研究室。

午前中は今日からラボに来た留学生の%と$のもろもろの作業を手伝う。
うちのラボに来た理由を聞いてみたら、ドイツより修士の待遇が良いかららしい (向こうは研究室によっては修士学生は専用の机すらないということ...) 。

午後は今日のミーティング資料の作り直し。日本語でもともと書いていたけど、%と$がミーティングに来るということで英語に書き直した。発表も英語ですることに。

夕方は全体ミーティング。
まずは自分からインターンの報告。In some companies, state of the art algorithms might not mean the best solutions, because of some limitations... とかいう感じのことを言うと、教授からそこは limitation じゃなくて restrict だよという基本的なツッコミが。相変わらず英語力がない..
ちなみに % に発表の感想を聞いてみると、研究 = 論文を書くことではない、という部分に共感してくれたらしい。自身の経験から、研究とは practical solutions を論理的に見つけることだと思う、と言われてなるほどーと思う。

自分の次は#さんによる研究発表。

夜は鍋を食べて、お酒 (八海山 300ml) を飲んだ。

2018/09/25

朝8時に起きた。今日も朝から研究室。

午前中は就活サイトの面談。自己 PR ページをどう充実させればいいか、について自分の強みに則した意見をいただく。今度のイベントは応募人数の半分ぐらいしか参加できないらしい。専攻に通ればいいんだけど。。

午後はまず進捗報告ミーティング。いい感じの結果 (t検定で有意な結果) が出てきて、やっと方向性が定まってきた。あとは手法をブラッシュアップしていきたい。

その後は輪講。今日は%さんによる、1000s プロセスまでスケールした Gamma Database Machine Project についての発表。shared memory だとスケールアウトに限界があるので shared nothing を採用したり、アルゴリズムをいろいろ工夫したりという話だった。これはネットワークトポロジーに Token ring を採用したりメモリサイズが 2MB だったりする時代の話なので、1000s 並列ってどのあたりに需要があったのかは少し気になった。

夕方は今度の研究室合宿で紹介する論文を漁る。個人的には最近エンティティがキテるので、この前の IR reading でも紹介されていた次の論文を読むことにする。

Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach. SIGIR. 2018.

この論文は検索クエリ中の entity をできるだけ被覆 (包括) するような検索手法を提案している。例えば "knowledge base for document retrieval" という普通のキーワード検索に検索クエリを投げたなら、"knowledge base" "document retrieval" の片方だけが多くマッチした文章も出てきてしまうが、それじゃあ不十分でしょうと問題提起をしている。