いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2018/11/28

今日も朝から研究室。

午前中はサーベイ論文の編集作業。なかなかページ数が埋まず、そもそも調査自体が浅い気がしてきた。特に 2010 年移行の論文が少ない気がするので、いろいろクエリを変えながら既存研究を調べる。

夕方、$社の方との面談をする。博士を取るか一度 industry に出るかというキャリアパスの大本が決まってないので、あいまいな返答しかできない。ここらへんはアメリカではっきり決められるようにしたい。

2018/11/27

今日も朝から研究室。

昼前にミーティングがある。サーベイ論文を出したいという話をすると、TOD がちょうどその枠があっていいとおすすめされる。締切が 12/20 か 3/20 なので、一応 12/20 を目指そうかな。8ページだからなかなかきつそうだけど。。

ということで夕方は実験を回しながらサーベイ論文を書く。論文のコーパスは悩みどころで、ばりばり patent に絞ると自分の研究から少し遠のく (i.e. レポートにつなげにくい) し、かといって document embedding とか Learning to Rank とか一般的な IR の話をするのもそれはそれで違う気がする。ここらへんはタイトルとアブストでうまいこと調整していかないと。

2018/11/25

今日も朝から研究室。

今日は学期末に提出するレポートを書いたりする。内容は関連研究のサーベイで、せっかくなのでこれをサーベイ論文としてどこかに出したいという気持ちが出てくる。明日先生に相談してみよう。

夜は今日も走りに行こうと思ったけど、昨日の筋肉痛が取れないのと胃痛がひどいのとでやめる。胃痛の原因はよくわからない。

2018/11/23

今日は AbemaTV の広告インプレッション数予測コンペ当日。

朝から一日中モデルを回す。
方針としてはとりあえず MLP で回すとして、まずは離散的な特徴量を one hot vector に直したりするというった前処理関数を書く。

今回は計算サーバーが用意されていないので、持っていった MBP で学習を回すと、500次元→250次元→100次元→1次元 の MLP でだいたい 1 epoch に数分かかった。

他にも Random Forest みたいな非 Deep モデルを試したみたかったけど、fit に verbose がなくいつ終わるかわからなかったので断念。

結果は30人中5位。最悪の結果だった。

反省点はいくつかあって、まず時系列の情報を活かせていなかったこと (サービスの知名度が上がるにつれてインプレッション数は底上げされる)、最新の回帰モデルを追えていなかったこと (上位の人は XGBoost や Light GBM といったモデルを使っていた)、元データの分布を見なかったこと。ちなみに良かった点は最適化の目的関数を MSE ではなく MAE にしたことぐらい。

反省が多かったけど、その分収穫もあったコンペだった。

2018/11/22

今日は Abema の広告インプレッション予測のコンペ に参加するため東京へ。

昼過ぎに東京について、まずは赤坂で % 社の方と面談する。ちょうど博士課程の進学と迷っているので、修士卒で採用された場合にどれだけサイエンスに関われるか、サイエンスに関わりつつ開発にも足を突っ込むなら博しに行くべか、といった相談をした。ちょうど相談に乗ってくださった社員さんもドクターを卒業されていて 、いろいろ具体的なアドバイスをいただいた。

夜はコンペティションの懇親会。同じグループの人は様々で、ポスト京に携わって GPU での並列処理を研究している人もいれば、人がおりなすデータに興味があって社会科学を専攻している人もいれば、ひたすら Kaggle にチャレンジしている人もいれば、、、という感じ。普段はこういう異分野の人と話す機会がないので新鮮だった。

2018/11/21

今日も朝から研究室。

午前中は研究の実装。ベイズ最適化の目的関数について先生にアドバイスをもらったので、それも追加で実験してみる。

今日は演習についても進捗を生む。API 通信で CORS Blocking が出てそれの解消に手間取った。これを調べてみるとブラウザが Javascript での勝手な通信を防ぐ目的? だそうだけど、これがバックエンド側に修正を加えることで治ったのが謎。