いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/07/26

朝9時に起きた。今日も朝から研究室。

今日は一日中研究。CLEF-IP のデータセットでいろいろ実験をしてみる。ちょうど今ロジカルシンキングの本を読んでいて、MECESo what? / Why so? を考えながらいろいろとパラメータをいじった。
ただあまり思わしい結果が得られず (既存研究の再現性が取れない) 苦労する。

昼は SIGIR 2018 に出ていた次の論文を読んでみる。

Shalaby, W., & Zadrozny, W. Toward an Interactive Patent Retrieval Framework based on Distributed Representations. SIGIR. 2018.

これは特許文章から concept を (ここでは concept = Wikipedia article title) 抽出して、Bag of Concept の形で文章を分散表現にした論文。単語ベースで検索する場合に比べ、同一の概念を指す異なる表現同士 (Solar cell と PV cell など) に強いという分散表現ならではの強みに加えて、それらの表現が複数単語で構成される場合にも robust であるという利点がある。

夕方からは梅田で、研究室の同期で飲み会。中国からの留学生に日本人 (rìběn rén) という単語の発音がうまいと褒められてうれしかった。

2018/07/25

朝10時に起きた。今日も朝から研究室。

午前中は国際融合科学論。今日は Ph.D の学生のプレゼンをきいたあと、最後の講義。講義は論文の Discussion, Conclusion に何を書くかというお題で、"Many papers are rejected because of faulty discussion, even if results are right." というのにはドキッとした。

午後は研究。CLEF-IP のデータセット整形 (XML -> JSON) ができたので、整形後のデータを Elasticsearch に入れた。今回のデータは英語だけじゃなくてフランス語・ドイツ語も混ざっているのでタスクとして難しそう。。

夕方は演習の中間報告を研究室の全体ミーティングでした。一番多かった質問・コメントはやはりなぜ Seq2Seq を用いる必要があるのかという問題で、この方針は後期に向けて要検討だなと思った。

2018/07/24

朝10時に起きた。今日も朝から研究室。

午前中は進捗報告ミーティングの資料作り。そのあと午後一番でミーティング。

ミーティングでは、今の方針が今の実験設定ではかなりきついことがわかったんだけど、これがいわゆる教師ラベルの質の悪さゆえのものである可能性が高まってきたので、とりあえず他の実験データセット (CLEF-IP 2010) で実験してみる。

その後はバイオ情報工学入門。今日は C-Net の前田研究室でいろいろな装置を体験する。

ついでビッグデータ解析。今回はリクルートテクノロジーズの Kaggle Grandmaster の方の講演で、主に特定物体認識について。面白い内容だった。内容は大きく Pre-Deep Era / Deep Era で別れていて、それぞれについて簡単にまとめると

  • 従来は local descripter のを抽出して BoVW を特徴量とする手法が主流。local descripter の抽出に、これまでは SIFT と呼ばれる Laplacian of Gaussian (の亜種) が用いられていた。SIFT はアフィン変換に対して robust
  • 2012年以降は CNN が台頭、一番最後の Convolution layer を sum-pooling なんかをして global descripter を抽出

ということ。

夜は研究室の麻雀杯。

2018/07/23

朝8時に起きた。今日も朝から研究室。

午前中は研究をすすめる。
実験で並列化できる場所は今まで Python の threading を使っていたが、Ctrl+C でもゾンビスレッドが生き残ったりして面倒だった。ということで新しい並列化方法を調べてみると、joblib というパッケージがどうも良さそうなので導入。これは Ctrl + C で一括終了できる上に、verbose を適切な値に設定すれば終了プロセス数や推定残り時間も表示してくれてかなり使える。使い方も MapReduce みたいにシンプル。

午後はまず%さんと&先生とのミーティング。とりあえずは照準をマドリードで行われる BIBM に合わせることに。
論文自体は&さんが草案を作ってくれていたので、今日のミーティングは主にどんな図を入れるかという話がメインだった。

夕方は再び研究。明日の進捗報告に備える。

2018/07/22

朝10時に起きた。

昼は久々に前から誘われていたクラブチームへ。
この気温で運動するのは久しぶりなので、体に大分と熱がたまった。ということで早めに切り上げる。

夕方は%をバス停まで送って、お酒を飲んで、早めに寝た。

2018/07/21

朝10時に起きた。

今朝は朝 (昼) ご飯を朝マックで食べた (最近2人とも朝マックにはまっているので、、)。

昼からは%は講義があるということで、自分は大阪に帰る。

夕方、%の家の近くで夜市があったらしくて、音が大きくて寝れなさそうだからと逆に%がうちにきた。

2018/07/21

朝8時に起きた。今日も朝から研究室。

午前中は班の輪講。今日は前回と引き続き SystemR の話で、今日は特に前回よりも下位レイヤーの話題がメイン。

午後はしばらく既存研究のサーベイを続ける。
今までの方針だと Query Expansion の効果が薄い (クエリが長い) ので、Query Reduction をいくつか調べてみる。結局、SIGIR に1つ新しくて良さそうな論文があったのでそれを見てみる。

Golestan Far, M., Sanne, S., Bouadjenek, M. R., Ferraro, G., & Hawking, D. On Term Selection Techniques for Patent Prior Art Search. SIGIR. 2015.

これは Pseudo Relevance Feedback を利用して Query Reduction を行ったもので、手法自体はシンプル。早速再実装してみる。

夕方、$の体調が悪いということで、急遽大津に帰る。今日はそのまま一泊する。