2019/07/08-2019/07/14 - いないち日記

BERT で CLEF-IP の特許の description を丸々 embedding しているんだけど、これがすごく時間がかかる。1~2sec/doc なので、単純に * 100万文書 / # GPU = ... という感じ。
50万文書ほど embedding できた時点で、いろいろな手法を試してみる。やはり単純に mean / max pooling したものはダメダメで、sentence embedding の空間を壊さずに問題を解きたいという思いが強くなる。

1つの実験がヘビーになるにつれ、データを無駄にしたいためにも、また再現性を担保するためにも、実験ノートの取り方とかをいろいろ探してみる。例えば化学や生物学などはこういうノウハウがたまってるんだろうなと思いつつ他分野もあさってみたが、やっぱり git を生かした方法が一番しっくりくる。となると今度は git を真面目に使わなければいけなくなってきて、ちょうど # にこの話を振ってみると、# は作業時間の1 割は git に費やしているらしいと聞いて驚く。確かに彼は Github の issue ベースで研究を進めているし、diff もしっかりしている。見習おう。