いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/11/15

今日も朝から研究室。

今日は document embedding として SCDV を試してみた。

SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations.** EMNLP. 2017.

この手法は比較的簡単で、もととなる word embedding (fasttext でも Word2Vec でもなんでも) に、各単語のクラスタリング (混合ガウス分布) 結果と iDF を加味したもの。ベクトル自体はかなり sparse になる。おそらく iDF とかが利いているのかな。

午後は授業。今日は NTT研究所の $ さんから、グラフについて。