いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/09/02

朝10時に起きた。

午前中は$と電話をしながらゆっくり過ごした。

午後は昨日興味を持った entity についてさらに調べようと思って、前から気になっていた飯田橋にある Think Lab へ。

Think Lab は快適だった。椅子の肘置きが低かったことだけが残念。今度も東京で時間を潰すときはここに来ようと思う。

以下は調べたことリスト。

Document Retrieval Using Entity-Based Language Models. SIGIR. 2016.
目的が自分の研究とドンピシャ。みんな entity を query expansion とかに使っているけど、もっと基本から entity の使い方を見直そうよ、という問題提起をしている。技術的には特に難しい話があるわけではなくて、クエリと文章の KL divergence

 D(\theta_q || \theta_d) = - \Sigma_t \theta_q (t) \log \theta_d (t)

でランキングする。 \theta は token pseudo count (を Dirichlet process で smoothing したもの) で、要は普通の LM だと token として term しか考えないけど、ここでは entity も同じように考慮するよ、というもの。

DBPedia Spotlight
DBpedia Spotlight - Shedding light on the web of documents
Entity Linking のツール。デモを試した見た感じそこそこイケてる。さっそく Docker で環境を作ってみたらなぜか Resource Not Found と出て、これの対処で行き詰まる。