いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/10/17

朝8時に起きた。
今日は論文読み合宿最終日。

以下は今日読んだ論文。

Bias in OLAP Queries: Detection, Explanation, and Removal. SIGMOD. 2018.
OLAP において "バイアス" (集計結果が正しく因果関係を示唆していないもの) を検知して取り除く手法を提案。

Robust Support Matrix Machine for Single Trial EEG Classification. TNSRE. 2018.
脳波の測定において、測定時の誤差を取り除くような NN アーキテクチャを提案。従来法に比べて、識別誤差など本来の NN の目的関数のフィードバックをノイズ除去に反映させているところがユニーク。ちなみにこれの今日はこれの誤差関数が主なディスカッションの的になっていて、個人的には
 \begin{align}&\underset {\mathbf {W},\mathbf {Z},b,\{\mathbf {L}_{i},\mathbf {S}_{i}\}_{i=1}^{n}}{\mathrm {\min }} \sum _{i=1}^{n} h(\mathbf {W},b,\mathbf {L}_{i}) + \lambda _{1} ||\mathbf {Z}||_{*} \notag \\&\qquad \qquad \qquad \!+\,\sum _{i=1}^{n}(\lambda _{2} ||\mathbf {L}_{i}||_{*} + \lambda _{3} ||\mathbf {S}_{i}||_{1}),\notag \\&\qquad ~\textit {s.t.} \quad \forall ~ i,~\mathbf {X}_{i} = \mathbf {L}_{i} + \mathbf {S}_{i}, ~ \mathbf {W} = \mathbf {Z}, \end{align}
(L は本来のデータ、Sはノイズ、Xは観測データ)
の L の部分でなぜ nuclear norm を用いるのかというのが気になった。後で調べてみるとこれは低ランク近似のための目的関数らしく、nuclaer norm は特異値の和らしい。。

Kodiak: leveraging materialized views for very low-latency analytics over high-dimensional web-scale data. VLDB. 2016.
200K / day を超えるクエリに対して、その 99% に 数百ms でレスポンスしているアーキテクチャ Kodiak の紹介。ある程度の新鮮さは犠牲になるものの、かなり使えそう。