2019-07-24

2019/07/15-2019/07/21

かなり忙しい一週間だった。作らなければならないスライドが3枚たまっていて (修士の中間報告、位相勉強会のスライド作成、輪講の課題) かなり忙しかった。忙しいと研究の進み具合が微妙になる、、と思っていたところで上保さんが下のような tweet をしていた。

この話も色々な人に言っているけれど。ものすごく生産性の高い研究者がいて、その秘訣を人づて聞いたところ、定期的に３日間ほど研究以外何もしない時間をとるのだそうだ。会議も学会も指導も何も入れない。調整がものすごく大変なので、数ヶ月前から日を定めなければならないし、その程度の間隔でしか
— じょうほひでお (@joho_hideo) July 18, 2019

中間報告は金曜日に無事終了。#先生から、特許というドメインなら未知語対応はどうなの? と聞かれ、そこは全文検索で補いますという最悪の回答をしてしまう (本質的な問題を従来研究で解こうとしていることになる)... とりあえず研究室に戻って fasttext で実験してみると BERT よりなかなか良い。

位相勉強会のスライドは、主に距離についての担当。解析学で言う $\epsilon - \delta$ 論法を位相的にといていて面白い。例えば
$\forall \epsilon\ \exists \delta\ d(x, a) < \delta \Rightarrow d'(f(x), f(a)) < \epsilon$
はつまり、
$f(B(a; \delta)) \subset B'(f(a); \epsilon)$ (ただし $B$ は近傍)
と書き換えることができて、これを
$B(a, \delta) \subset f^{-1} (B'(f(a); \epsilon))$
これはいわゆる「飛ばした先の近傍が基の近傍」ということで、これは実は $f$ が連続であることと同値となる。

輪講の課題はトランザクションについて発表することに。

2019-07-17

2019/07/08-2019/07/14

BERT で CLEF-IP の特許の description を丸々 embedding しているんだけど、これがすごく時間がかかる。1~2sec/doc なので、単純に * 100万文書 / # GPU = ... という感じ。
50万文書ほど embedding できた時点で、いろいろな手法を試してみる。やはり単純に mean / max pooling したものはダメダメで、sentence embedding の空間を壊さずに問題を解きたいという思いが強くなる。

1つの実験がヘビーになるにつれ、データを無駄にしたいためにも、また再現性を担保するためにも、実験ノートの取り方とかをいろいろ探してみる。例えば化学や生物学などはこういうノウハウがたまってるんだろうなと思いつつ他分野もあさってみたが、やっぱり git を生かした方法が一番しっくりくる。となると今度は git を真面目に使わなければいけなくなってきて、ちょうど # にこの話を振ってみると、# は作業時間の1 割は git に費やしているらしいと聞いて驚く。確かに彼は Github の issue ベースで研究を進めているし、diff もしっかりしている。見習おう。

2019-07-17

2019/07/01-2019/07/07

Berkeley で会った先端医療イノベーションセンタの@教授が日本に戻ってきて講義をするので、15分ぐらい学部生の前で海外経験を話してくれないかと頼まれ話してきた。豊中でしかも一限で、最悪なことに30分ほど遅刻してしまった。ちなみに一限にもかかわらず多くの人が授業を集中して聞いていて、これまた罪悪感がすごい。
話したことはまぁありふれた経験談。特に受講生に刺さったと思う (多くの人がメモしてくれた) 部分は、「アメリカで Ph.D. のすごい人たちに日々囲まれて、自分は会社にとってどんな貢献ができるか、ということを厳しく自問自答した。例えば日本で就活する場合、自分の観測範囲では多くの人が自分がその会社でやりたいことを主張していたが、一歩違う視点からも自分を評価するといいかもしれない」というもの。これはちょうど home taking message のつもりだったのでうれしかった。

前の研究室のたこぱにお邪魔する。ちょうど$さんが前日に助教授になられたらしく、お祝い。$さんはもともと CV の研究者で、プレゼンスライドについていろいろ指摘いただいたのを思い出した。

研究は、document embedding は筋が悪そうで、sentence embedding で考えるという方針は固まってきた。ちょうど%と雑談している時にこの話をすると、%の領域では LSTM on LSTM みたいなことをするらしく、なるほどという感じ。

2019-07-02

2019/06/24-2019/06/30

大規模コーパスでトピックモデルをやるのはどうも大変そうなので、ELMo や BERT で embedding をして次元縮退をすることにする (本来やりたかったベイズ推定ではないけど)。ここら辺が重い限りベイズ推定というのはなかなか使いにくい。

Sentence embedding の inference を横目で見ながら、document embedding の構成についてもいろいろ案を練る。最近の pretraining モデルはベンチマークスコアを見る限りだいぶ意味はつかめてきているので、自分の contribution はその aggregation についての方法論を提示することかなと思う。できれば経験則ではなく理論に基づいた妥当性が示せればいいなと思うんだけど、、 (例えば足し合わせたものを文書の分散表現とするなら、SGNS みたいに加法の妥当性 (Levy+ 2014) を示したい)

最近は有志の勉強会で集合位相論にも手を出している。これは実験的にトップダウン式で勉強している。今は位相の定義をしているが、 $\mathcal{D}$ が集合 S の位相となる必要条件の1つ