いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2019/08/26-2019/09/01

暑さがだいぶ引いてきた。9月にも入ったことだし、そろそろ年度末に向けて動き始め。

研究の方では大きな進捗があった。以前考えてそのまま放置していた文書間類似度の計算のアイデアに、2つの文書の sentence embeddings をそれぞれ基底とみなして、 \mathbf{R}^d 上の部分空間の基底2つの近さ=文書の類似度とみなすというのがあった。これは sentence embedding の数が文書によって違う (=部分空間の次元が文書によって異なる) という問題に対処できずに何もできていなかったけど、先日ふと、alignment をとるとこれが解決できることに気づいた。one-to-one alignment ではないので片方の行列は厳密には一次独立にはならない (基底の定義を満たさない) けど、それは単に削ることにする。大きな進捗。

ということで早速実験をしてみる。最初に試したのがこの論文。
Jihun Hamm & Daniel D. Lee. Grassmann discriminant analysis: a unifying view on subspace-based learning. ICML 2008.
この論文ではまず2つの部分空間の距離をグラスマン多様体  G(m, D) 上での最短の Riemann 距離と定義している。で、(Golub & Loan 1996) によるとこれは Principal angle を用いた距離で計算できて、Principal angle は SVD で解ける (各固有値 cos(\theta) に対応する)。ということで  cos(\theta) が求まったとしてどんな距離尺度を試すか、という議論を展開している。自分が試した限りだと紹介されている距離尺度はどれもうまくいきそうなので、しばらくはこの筋で研究を進めてみることにする。

ちなみに以前はこの問題を行列の差の行列式で解こうとしていたが、まさに同じアプローチが NAACL 2019 に出ていた。この分野はやっぱり流れが早くて、自分が考えていることはおおよそ世界の誰かも考えている感がある...

Tim vor der Brück & Marc Pouly. Text Similarity Estimation Based on Word Embeddings and Matrix Norms for Targeted Marketing. NAACL-HLT. 2019.

2019/08/19-2019/08/25

発表練習・スライド修正で怒濤のような3日を過ごしたあと、チェジュ島へ。なにげに研究室のメンバーと海外に来たのはこれが初めてで、いつもより楽しい出張。

特に面白かったのが、Graph embedding と Matrix Factorization について (AIST の%さん)。直感的な概念からまず General な損失関数 (ノード同士の距離の定義・incremental function の選択に任意性がある) を定義して、その後その1つの個別例である損失関数でクラスタリングを実験した、という発表。重要なところではないが、embedding 同士の similarity で内積をとっていて、norm normalization を入れなくていいの? と質問したら、あえてそれをしないことで L2 正則化に似た効果を発揮するということ。

(他も面白い発表が多かったけど、credential なものが多くて書けない...)

チェジュ島自体はかなり満喫できた。最後に胃腸の疲れがどっと来て胃腸炎になってしまったが...

2019/08/12-2019/08/18

チェジュ島でのワークショップが近づいてきたが一向に研究にケリがつかないので、お盆返上で研究室に引きこもる。

Aという問題があって、既存手法ではXという側面が見逃されていたが、これは実は重大な問題だ、というプレゼンをしたいのだけど、これがまた難しい。Xを見るけることも難しいし、Xが重大であることを示すのも難しい。この1週間はおおよそこの難しさと戦っていたような気がする。

文書の類似度の定義は、グラフのアプローチはいったん置いておき、アライメントをとって aggregation で何か工夫をするというアプローチに切り替えることにした。Word Mover Distance が成功しているならこの筋は悪くないと思いたい。

2019/08/05-2019/08/11

春の疎水の桜と夏のびわ湖花火はもう20年以上毎年見ている気がする。今年もいつもの場所で花火を見る。20年も見ているとだいたいのパターンがわかってきて、次はキャラクターが来そうとか、ここからしばらくは浜大津あたりで小さくまとまりそうとか、そういうことが予測できるようになる。

研究の方は、なんとかランキングの問題をグラフの話に持ち込もうとしている。kNNグラフを定義して Personalized PageRank を計算してみたり重力モデルで二次元プロットしてみたり..

2019/07/29-2019/08/04

水曜日、ACL (イタリア・フィレンツェ) に向けて KIX を出る。今回はインターンでの成果で Repl4NLP に出したものなので、本会議には出れず...

今回乗ったのがエールフランスで、社内が結構快適だったので、今まで国際線に対して持っていた拷問に近いイメージが少し解消された。

13時間ほどしてパリに着き、そこからフィレンツェへ。
フィレンツェ便で隣の人が興味ありげに自分の iPad を眺めていたので、話してみると、なんと彼はかつて新宿でイタリア語の先生をしていたということ。話しているうちに仲良くなり、ついには弟さんの車でホテルまで送っていただくまでに。感謝。

フィレンツェは街全体が趣のある建築にあふれていて、この徹底ぶりは京都でもなかなかまねできないと思った。特に大聖堂は、最初何も知らずに付近を歩いていたら見つけたが、その大きさと精密さに圧倒された。これが500年も前に作られたなんて...

以上が観光レポートで、以降はカンファレンスレポート。

Argument mining が流行りつつある。これはある主張 (claim) に対してある文がどういう関係を持っているか (例示・反論・neutral, etc..) 推定するタスクで、そもそも claim を抽出するのも、その文に関連する文も大変で、その上に関係推定が乗っかっているというまだまだたくさん発展する余地があるタスク。この workshop でたまたま東大の$さんがポスターを出しておられて少し話す。$さんの研究は claim の抽出に textrank を使っていて、教師情報が与えられた上で textrank (=pagerank) が適した形になるようにグラフの重みを学習するというもの。今は PageRank を直接損失に組めない (微分できない) ので教科学習を用いているが、そのうち SGD で解きたいという話をしていた。

Repl4NLP は "representation" の意味をあえて広くとった Tutorial が多かった一方、ポスターはほとんどが word/sentence embedding にフォーカスしていた。チュートリアルは2つ面白いものがあった。
1つ目は Language emergence as representation learning で、DNN 同士が会話したとき、そこで生み出される言語の各単語の単語長がシャノンの符号化定理的の下限とどれだけ近いかというのを実験した話。実はこれはそこまで近づかない。人間の言語だと、実はアラビア語とかが下限にすごく近づいていて、結構効率がいいんだなーと知った。
2つ目は Modeling Output Spaces in Continuous-Output Language Generation で、生成モデルによくある softmax は計算効率や語彙の制限といった問題から好ましくないのでやめようという話。あくまで softmax ではなくその前の連続空間に直接ロスをかけることで、入力に対してより連続的な変化を持つ (つまりコントロールしやすい) モデルを生成することができる。

2019/07/22-2019/07/28

ビッグデータ工学の TA も最終回。今回は関西学院大学の#先生による講義。ソーシャルメディア分析についての話で、社会学や心理学も絡んでいて面白かった。自分の研究 (IR) を顧みると、人間のための (正しさがなかなか定義できない) タスクである以上、心理学上の過去の研究と結びつける研究がしたいなぁと思う。一度夏休みに時間をとって勉強してみようかな。

授業後に、受講生 (この授業は社会人向けのプログラムも兼ねている) と合同での飲み会があって、それに先生と TA とで参加する。ここで初めて知ったが最近は大学がいろいろ AI 人材の育成プログラムを提供しているらしく、中には年間受講料 300 万 (たしか京大) のもあるらしい。基本的にみなさん自費できていて、それだけにモチベーションも高かったので非常に TA のやりがいのある講義だった。話を聞いていると製造業の方が特に多く、データはたくさんあるんだけどそれを有効活用できる人がいない、外注は高いから中の人を育成したい、という声が多かった。

研究はここに来て概念検索が微妙なんじゃないかと思い始める。

2019/07/15-2019/07/21

かなり忙しい一週間だった。作らなければならないスライドが3枚たまっていて (修士の中間報告、位相勉強会のスライド作成、輪講の課題) かなり忙しかった。忙しいと研究の進み具合が微妙になる、、と思っていたところで上保さんが下のような tweet をしていた。

中間報告は金曜日に無事終了。#先生から、特許というドメインなら未知語対応はどうなの? と聞かれ、そこは全文検索で補いますという最悪の回答をしてしまう (本質的な問題を従来研究で解こうとしていることになる)... とりあえず研究室に戻って fasttext で実験してみると BERT よりなかなか良い。

位相勉強会のスライドは、主に距離についての担当。解析学で言う  \epsilon - \delta 論法を位相的にといていて面白い。例えば
 \forall \epsilon\ \exists \delta\ d(x, a) < \delta \Rightarrow d'(f(x), f(a)) < \epsilon
はつまり、
 f(B(a; \delta)) \subset B'(f(a); \epsilon) (ただし  B は近傍)
と書き換えることができて、これを
 B(a, \delta) \subset f^{-1} (B'(f(a); \epsilon))
これはいわゆる「飛ばした先の近傍が基の近傍」ということで、これは実は  f が連続であることと同値となる。

輪講の課題はトランザクションについて発表することに。