いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2019/07/15-2019/07/21

かなり忙しい一週間だった。作らなければならないスライドが3枚たまっていて (修士の中間報告、位相勉強会のスライド作成、輪講の課題) かなり忙しかった。忙しいと研究の進み具合が微妙になる、、と思っていたところで上保さんが下のような tweet をしていた。

中間報告は金曜日に無事終了。#先生から、特許というドメインなら未知語対応はどうなの? と聞かれ、そこは全文検索で補いますという最悪の回答をしてしまう (本質的な問題を従来研究で解こうとしていることになる)... とりあえず研究室に戻って fasttext で実験してみると BERT よりなかなか良い。

位相勉強会のスライドは、主に距離についての担当。解析学で言う  \epsilon - \delta 論法を位相的にといていて面白い。例えば
 \forall \epsilon\ \exists \delta\ d(x, a) < \delta \Rightarrow d'(f(x), f(a)) < \epsilon
はつまり、
 f(B(a; \delta)) \subset B'(f(a); \epsilon) (ただし  B は近傍)
と書き換えることができて、これを
 B(a, \delta) \subset f^{-1} (B'(f(a); \epsilon))
これはいわゆる「飛ばした先の近傍が基の近傍」ということで、これは実は  f が連続であることと同値となる。

輪講の課題はトランザクションについて発表することに。

2019/07/08-2019/07/14

BERT で CLEF-IP の特許の description を丸々 embedding しているんだけど、これがすごく時間がかかる。1~2sec/doc なので、単純に * 100万文書 / # GPU = ... という感じ。
50万文書ほど embedding できた時点で、いろいろな手法を試してみる。やはり単純に mean / max pooling したものはダメダメで、sentence embedding の空間を壊さずに問題を解きたいという思いが強くなる。

1つの実験がヘビーになるにつれ、データを無駄にしたいためにも、また再現性を担保するためにも、実験ノートの取り方とかをいろいろ探してみる。例えば化学や生物学などはこういうノウハウがたまってるんだろうなと思いつつ他分野もあさってみたが、やっぱり git を生かした方法が一番しっくりくる。となると今度は git を真面目に使わなければいけなくなってきて、ちょうど # にこの話を振ってみると、# は作業時間の1 割は git に費やしているらしいと聞いて驚く。確かに彼は Github の issue ベースで研究を進めているし、diff もしっかりしている。見習おう。

2019/07/01-2019/07/07

Berkeley で会った先端医療イノベーションセンタの@教授が日本に戻ってきて講義をするので、15分ぐらい学部生の前で海外経験を話してくれないかと頼まれ話してきた。豊中でしかも一限で、最悪なことに30分ほど遅刻してしまった。ちなみに一限にもかかわらず多くの人が授業を集中して聞いていて、これまた罪悪感がすごい。
話したことはまぁありふれた経験談。特に受講生に刺さったと思う (多くの人がメモしてくれた) 部分は、「アメリカで Ph.D. のすごい人たちに日々囲まれて、自分は会社にとってどんな貢献ができるか、ということを厳しく自問自答した。例えば日本で就活する場合、自分の観測範囲では多くの人が自分がその会社でやりたいことを主張していたが、一歩違う視点からも自分を評価するといいかもしれない」というもの。これはちょうど home taking message のつもりだったのでうれしかった。

前の研究室のたこぱにお邪魔する。ちょうど$さんが前日に助教授になられたらしく、お祝い。$さんはもともと CV の研究者で、プレゼンスライドについていろいろ指摘いただいたのを思い出した。

研究は、document embedding は筋が悪そうで、sentence embedding で考えるという方針は固まってきた。ちょうど%と雑談している時にこの話をすると、%の領域では LSTM on LSTM みたいなことをするらしく、なるほどという感じ。

2019/06/24-2019/06/30

大規模コーパスでトピックモデルをやるのはどうも大変そうなので、ELMo や BERT で embedding をして次元縮退をすることにする (本来やりたかったベイズ推定ではないけど)。ここら辺が重い限りベイズ推定というのはなかなか使いにくい。

Sentence embedding の inference を横目で見ながら、document embedding の構成についてもいろいろ案を練る。最近の pretraining モデルはベンチマークスコアを見る限りだいぶ意味はつかめてきているので、自分の contribution はその aggregation についての方法論を提示することかなと思う。できれば経験則ではなく理論に基づいた妥当性が示せればいいなと思うんだけど、、 (例えば足し合わせたものを文書の分散表現とするなら、SGNS みたいに加法の妥当性 (Levy+ 2014) を示したい)

最近は有志の勉強会で集合位相論にも手を出している。これは実験的にトップダウン式で勉強している。今は位相の定義をしているが、 \mathcal{D} が集合 S の位相となる必要条件の1つ

  •  (O_\lambda)_{\lambda \in A} \mathcal{D} からなる任意の集合族とすれば、 \bigcup_{\lambda \in A} \in \mathcal{D}

という statement がなかなか頭に入らない。。CS の用語で言うと集合の要素の型がわからなくなる。

2019/06/10-2019/06/16

結構重度な睡眠時無呼吸症候群にかかっていることがわかった。この症状の主な原因は気道が塞がることらしく、これも太った弊害か.. となる。

研究室の全体ミーティングでは、テーマが同じB4の#さんの発表。自分の発表より緊張する。発表から自分なりに課題点を見つけたり、フィードバックを生かしたりしていてとてもえらいし、これからは積極的し指導しまくるよりは #さんが自分のパフォーマンスを存分に発揮できるチーム作りを目指したい。

2019/06/03-2019/06/10

マッサージをしてもらってる#さんに睡眠時無呼吸症候群の兆候があると言われたので、耳鼻科で見てもらう。機械を貸してもらって検査。

この間会った#と再び梅田で会って、何人かを紹介したりした。人に誰かを紹介するというのを初めてやったが、これは自分の信用に関わることでもありかなり難しい。

UW の Ph.D. course に入学予定の%さんと Skype をしていろいろ話を聞く。%さんは研究室の内部事情から勢力までを徹底的にサーベイしていて、自分の調査不足を恥じる。特に自分は industory 経験者として受けるので academic background が重要そう。