いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2019/07/29-2019/08/04

水曜日、ACL (イタリア・フィレンツェ) に向けて KIX を出る。今回はインターンでの成果で Repl4NLP に出したものなので、本会議には出れず...

今回乗ったのがエールフランスで、社内が結構快適だったので、今まで国際線に対して持っていた拷問に近いイメージが少し解消された。

13時間ほどしてパリに着き、そこからフィレンツェへ。
フィレンツェ便で隣の人が興味ありげに自分の iPad を眺めていたので、話してみると、なんと彼はかつて新宿でイタリア語の先生をしていたということ。話しているうちに仲良くなり、ついには弟さんの車でホテルまで送っていただくまでに。感謝。

フィレンツェは街全体が趣のある建築にあふれていて、この徹底ぶりは京都でもなかなかまねできないと思った。特に大聖堂は、最初何も知らずに付近を歩いていたら見つけたが、その大きさと精密さに圧倒された。これが500年も前に作られたなんて...

以上が観光レポートで、以降はカンファレンスレポート。

Argument mining が流行りつつある。これはある主張 (claim) に対してある文がどういう関係を持っているか (例示・反論・neutral, etc..) 推定するタスクで、そもそも claim を抽出するのも、その文に関連する文も大変で、その上に関係推定が乗っかっているというまだまだたくさん発展する余地があるタスク。この workshop でたまたま東大の$さんがポスターを出しておられて少し話す。$さんの研究は claim の抽出に textrank を使っていて、教師情報が与えられた上で textrank (=pagerank) が適した形になるようにグラフの重みを学習するというもの。今は PageRank を直接損失に組めない (微分できない) ので教科学習を用いているが、そのうち SGD で解きたいという話をしていた。

Repl4NLP は "representation" の意味をあえて広くとった Tutorial が多かった一方、ポスターはほとんどが word/sentence embedding にフォーカスしていた。チュートリアルは2つ面白いものがあった。
1つ目は Language emergence as representation learning で、DNN 同士が会話したとき、そこで生み出される言語の各単語の単語長がシャノンの符号化定理的の下限とどれだけ近いかというのを実験した話。実はこれはそこまで近づかない。人間の言語だと、実はアラビア語とかが下限にすごく近づいていて、結構効率がいいんだなーと知った。
2つ目は Modeling Output Spaces in Continuous-Output Language Generation で、生成モデルによくある softmax は計算効率や語彙の制限といった問題から好ましくないのでやめようという話。あくまで softmax ではなくその前の連続空間に直接ロスをかけることで、入力に対してより連続的な変化を持つ (つまりコントロールしやすい) モデルを生成することができる。