2019/06/24-2019/06/30
大規模コーパスでトピックモデルをやるのはどうも大変そうなので、ELMo や BERT で embedding をして次元縮退をすることにする (本来やりたかったベイズ推定ではないけど)。ここら辺が重い限りベイズ推定というのはなかなか使いにくい。
Sentence embedding の inference を横目で見ながら、document embedding の構成についてもいろいろ案を練る。最近の pretraining モデルはベンチマークスコアを見る限りだいぶ意味はつかめてきているので、自分の contribution はその aggregation についての方法論を提示することかなと思う。できれば経験則ではなく理論に基づいた妥当性が示せればいいなと思うんだけど、、 (例えば足し合わせたものを文書の分散表現とするなら、SGNS みたいに加法の妥当性 (Levy+ 2014) を示したい)
最近は有志の勉強会で集合位相論にも手を出している。これは実験的にトップダウン式で勉強している。今は位相の定義をしているが、 が集合 S の位相となる必要条件の1つ
- を からなる任意の集合族とすれば、
という statement がなかなか頭に入らない。。CS の用語で言うと集合の要素の型がわからなくなる。