いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/11/23

今日は AbemaTV の広告インプレッション数予測コンペ当日。

朝から一日中モデルを回す。
方針としてはとりあえず MLP で回すとして、まずは離散的な特徴量を one hot vector に直したりするというった前処理関数を書く。

今回は計算サーバーが用意されていないので、持っていった MBP で学習を回すと、500次元→250次元→100次元→1次元 の MLP でだいたい 1 epoch に数分かかった。

他にも Random Forest みたいな非 Deep モデルを試したみたかったけど、fit に verbose がなくいつ終わるかわからなかったので断念。

結果は30人中5位。最悪の結果だった。

反省点はいくつかあって、まず時系列の情報を活かせていなかったこと (サービスの知名度が上がるにつれてインプレッション数は底上げされる)、最新の回帰モデルを追えていなかったこと (上位の人は XGBoost や Light GBM といったモデルを使っていた)、元データの分布を見なかったこと。ちなみに良かった点は最適化の目的関数を MSE ではなく MAE にしたことぐらい。

反省が多かったけど、その分収穫もあったコンペだった。