いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2019/07/08-2019/07/14

BERT で CLEF-IP の特許の description を丸々 embedding しているんだけど、これがすごく時間がかかる。1~2sec/doc なので、単純に * 100万文書 / # GPU = ... という感じ。
50万文書ほど embedding できた時点で、いろいろな手法を試してみる。やはり単純に mean / max pooling したものはダメダメで、sentence embedding の空間を壊さずに問題を解きたいという思いが強くなる。

1つの実験がヘビーになるにつれ、データを無駄にしたいためにも、また再現性を担保するためにも、実験ノートの取り方とかをいろいろ探してみる。例えば化学や生物学などはこういうノウハウがたまってるんだろうなと思いつつ他分野もあさってみたが、やっぱり git を生かした方法が一番しっくりくる。となると今度は git を真面目に使わなければいけなくなってきて、ちょうど # にこの話を振ってみると、# は作業時間の1 割は git に費やしているらしいと聞いて驚く。確かに彼は Github の issue ベースで研究を進めているし、diff もしっかりしている。見習おう。

2019/07/01-2019/07/07

Berkeley で会った先端医療イノベーションセンタの@教授が日本に戻ってきて講義をするので、15分ぐらい学部生の前で海外経験を話してくれないかと頼まれ話してきた。豊中でしかも一限で、最悪なことに30分ほど遅刻してしまった。ちなみに一限にもかかわらず多くの人が授業を集中して聞いていて、これまた罪悪感がすごい。
話したことはまぁありふれた経験談。特に受講生に刺さったと思う (多くの人がメモしてくれた) 部分は、「アメリカで Ph.D. のすごい人たちに日々囲まれて、自分は会社にとってどんな貢献ができるか、ということを厳しく自問自答した。例えば日本で就活する場合、自分の観測範囲では多くの人が自分がその会社でやりたいことを主張していたが、一歩違う視点からも自分を評価するといいかもしれない」というもの。これはちょうど home taking message のつもりだったのでうれしかった。

前の研究室のたこぱにお邪魔する。ちょうど$さんが前日に助教授になられたらしく、お祝い。$さんはもともと CV の研究者で、プレゼンスライドについていろいろ指摘いただいたのを思い出した。

研究は、document embedding は筋が悪そうで、sentence embedding で考えるという方針は固まってきた。ちょうど%と雑談している時にこの話をすると、%の領域では LSTM on LSTM みたいなことをするらしく、なるほどという感じ。

2019/06/24-2019/06/30

大規模コーパスでトピックモデルをやるのはどうも大変そうなので、ELMo や BERT で embedding をして次元縮退をすることにする (本来やりたかったベイズ推定ではないけど)。ここら辺が重い限りベイズ推定というのはなかなか使いにくい。

Sentence embedding の inference を横目で見ながら、document embedding の構成についてもいろいろ案を練る。最近の pretraining モデルはベンチマークスコアを見る限りだいぶ意味はつかめてきているので、自分の contribution はその aggregation についての方法論を提示することかなと思う。できれば経験則ではなく理論に基づいた妥当性が示せればいいなと思うんだけど、、 (例えば足し合わせたものを文書の分散表現とするなら、SGNS みたいに加法の妥当性 (Levy+ 2014) を示したい)

最近は有志の勉強会で集合位相論にも手を出している。これは実験的にトップダウン式で勉強している。今は位相の定義をしているが、 \mathcal{D} が集合 S の位相となる必要条件の1つ

  •  (O_\lambda)_{\lambda \in A} \mathcal{D} からなる任意の集合族とすれば、 \bigcup_{\lambda \in A} \in \mathcal{D}

という statement がなかなか頭に入らない。。CS の用語で言うと集合の要素の型がわからなくなる。

2019/06/17-2019/06/23

研究室に新しい留学生が何人か来て賑やかになる。

木曜日、研究室の院試決起集会 (単なる飲み会) の後に%に Irish bar に連れて行ってもらった。なかなか自分では行かないような場所。

2019/06/10-2019/06/16

結構重度な睡眠時無呼吸症候群にかかっていることがわかった。この症状の主な原因は気道が塞がることらしく、これも太った弊害か.. となる。

研究室の全体ミーティングでは、テーマが同じB4の#さんの発表。自分の発表より緊張する。発表から自分なりに課題点を見つけたり、フィードバックを生かしたりしていてとてもえらいし、これからは積極的し指導しまくるよりは #さんが自分のパフォーマンスを存分に発揮できるチーム作りを目指したい。

2019/06/03-2019/06/10

マッサージをしてもらってる#さんに睡眠時無呼吸症候群の兆候があると言われたので、耳鼻科で見てもらう。機械を貸してもらって検査。

この間会った#と再び梅田で会って、何人かを紹介したりした。人に誰かを紹介するというのを初めてやったが、これは自分の信用に関わることでもありかなり難しい。

UW の Ph.D. course に入学予定の%さんと Skype をしていろいろ話を聞く。%さんは研究室の内部事情から勢力までを徹底的にサーベイしていて、自分の調査不足を恥じる。特に自分は industory 経験者として受けるので academic background が重要そう。

2019/05/27-2019/06/02

木曜日、NAIST で MSRA の Ming Zhou の講演会があるということで、研究室の何人かと一緒に行く。さすが Micorsoft で、プレゼンがおしゃれ。内容は最近の NLP のおさらいで、この分野の研究者ならおそらくすでに抑えている内容だった。たださすがこの分野の第一人者で、future work が本当に鋭かった。the role of human-expert made knowledge and rule とか、need reasoning of multitask learning とか。

ジムはだんだんと慣れてきた。なかなか走っていても距離が出ないのは呼吸のせいかなぁ。