いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/11/23

今日は AbemaTV の広告インプレッション数予測コンペ当日。

朝から一日中モデルを回す。
方針としてはとりあえず MLP で回すとして、まずは離散的な特徴量を one hot vector に直したりするというった前処理関数を書く。

今回は計算サーバーが用意されていないので、持っていった MBP で学習を回すと、500次元→250次元→100次元→1次元 の MLP でだいたい 1 epoch に数分かかった。

他にも Random Forest みたいな非 Deep モデルを試したみたかったけど、fit に verbose がなくいつ終わるかわからなかったので断念。

結果は30人中5位。最悪の結果だった。

反省点はいくつかあって、まず時系列の情報を活かせていなかったこと (サービスの知名度が上がるにつれてインプレッション数は底上げされる)、最新の回帰モデルを追えていなかったこと (上位の人は XGBoost や Light GBM といったモデルを使っていた)、元データの分布を見なかったこと。ちなみに良かった点は最適化の目的関数を MSE ではなく MAE にしたことぐらい。

反省が多かったけど、その分収穫もあったコンペだった。

2018/11/22

今日は Abema の広告インプレッション予測のコンペ に参加するため東京へ。

昼過ぎに東京について、まずは赤坂で % 社の方と面談する。ちょうど博士課程の進学と迷っているので、修士卒で採用された場合にどれだけサイエンスに関われるか、サイエンスに関わりつつ開発にも足を突っ込むなら博しに行くべか、といった相談をした。ちょうど相談に乗ってくださった社員さんもドクターを卒業されていて 、いろいろ具体的なアドバイスをいただいた。

夜はコンペティションの懇親会。同じグループの人は様々で、ポスト京に携わって GPU での並列処理を研究している人もいれば、人がおりなすデータに興味があって社会科学を専攻している人もいれば、ひたすら Kaggle にチャレンジしている人もいれば、、、という感じ。普段はこういう異分野の人と話す機会がないので新鮮だった。

2018/11/21

今日も朝から研究室。

午前中は研究の実装。ベイズ最適化の目的関数について先生にアドバイスをもらったので、それも追加で実験してみる。

今日は演習についても進捗を生む。API 通信で CORS Blocking が出てそれの解消に手間取った。これを調べてみるとブラウザが Javascript での勝手な通信を防ぐ目的? だそうだけど、これがバックエンド側に修正を加えることで治ったのが謎。

2018/11/15

今日も朝から研究室。

今日は document embedding として SCDV を試してみた。

SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations.** EMNLP. 2017.

この手法は比較的簡単で、もととなる word embedding (fasttext でも Word2Vec でもなんでも) に、各単語のクラスタリング (混合ガウス分布) 結果と iDF を加味したもの。ベクトル自体はかなり sparse になる。おそらく iDF とかが利いているのかな。

午後は授業。今日は NTT研究所の $ さんから、グラフについて。

2018/11/14

今日も朝から研究室。

昼前、word embedding の手法について研究をしいてる $ さんに研究の相談に乗ってもらう。主な相談内容は、文章の embedding の「重心」のようなものが定義できたとして、その「重心」と各単語との類似度を評価できないか、というもの。文章を単語と同じ空間に embedding できればいいんだけど、なかなかそんな embedding 手法は見つからず。$ さんいわく、クエリの重み付けをしたいなら強化学習を用いてはどうかということ (報酬を Recall とすれば素直に実装できる) 。これはたまたま自分も思っていたことなので、今の方針とは独立して新たにやってみた。

午後は研究室の全体ミーティング。B4 3人から卒論の方針 proposal がある。どの人も結構な進捗が出ていてすごい。