いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2019/08/26-2019/09/01

暑さがだいぶ引いてきた。9月にも入ったことだし、そろそろ年度末に向けて動き始め。

研究の方では大きな進捗があった。以前考えてそのまま放置していた文書間類似度の計算のアイデアに、2つの文書の sentence embeddings をそれぞれ基底とみなして、 \mathbf{R}^d 上の部分空間の基底2つの近さ=文書の類似度とみなすというのがあった。これは sentence embedding の数が文書によって違う (=部分空間の次元が文書によって異なる) という問題に対処できずに何もできていなかったけど、先日ふと、alignment をとるとこれが解決できることに気づいた。one-to-one alignment ではないので片方の行列は厳密には一次独立にはならない (基底の定義を満たさない) けど、それは単に削ることにする。大きな進捗。

ということで早速実験をしてみる。最初に試したのがこの論文。
Jihun Hamm & Daniel D. Lee. Grassmann discriminant analysis: a unifying view on subspace-based learning. ICML 2008.
この論文ではまず2つの部分空間の距離をグラスマン多様体  G(m, D) 上での最短の Riemann 距離と定義している。で、(Golub & Loan 1996) によるとこれは Principal angle を用いた距離で計算できて、Principal angle は SVD で解ける (各固有値 cos(\theta) に対応する)。ということで  cos(\theta) が求まったとしてどんな距離尺度を試すか、という議論を展開している。自分が試した限りだと紹介されている距離尺度はどれもうまくいきそうなので、しばらくはこの筋で研究を進めてみることにする。

ちなみに以前はこの問題を行列の差の行列式で解こうとしていたが、まさに同じアプローチが NAACL 2019 に出ていた。この分野はやっぱり流れが早くて、自分が考えていることはおおよそ世界の誰かも考えている感がある...

Tim vor der Brück & Marc Pouly. Text Similarity Estimation Based on Word Embeddings and Matrix Norms for Targeted Marketing. NAACL-HLT. 2019.