2019/12/09-2019/12/15
入院前なので、できるだけ作業を整理させておきたい。いま Y さんと共同でやっているプロジェクトは Y さんのほうでうまく回りつつあるので、それは Y さんにほとんど任せて、自分の作業に専念することにする。
2019/12/02-2019/12/09
pytest の monkeypatch でかなり消耗した。どうやら元のファイルで from XX import YY
として YY を読み込んだ場合、あとで YY を monkeypatch することはできなさそう。で、回避策は import XX
として使うときに XX.YY
とすればいいらしい。import 宣言の違いをちゃんと理解しないといけないっぽい。
そろそろ卒論でいい結果が欲しいところだが、なかなか思った結果がでない。直感でうまくいきそうと思ったやつでもそこまでうまくいかないので、やっぱりアイデア一点張りをどーんと出すより PCDA を早く回す方がいいな。いや、この問題意識は前からあったわけだけで typedflow とか作ったわけだけど、これが時間節約に役立っているかと言われるとやっぱり微妙。
2019/11/25-2019/12/01
(1) 会社支給の PC が US キーボードなので、それに慣れるために新しい HHKB を買った。相変わらず Type-S で、今回は無刻印。前も Type-S だったが結構使い込んでいたので、新しいものに変えてから押し心地が全然違うことに驚く。
(2) アメリカからきた留学生と話をしていて、ふと東大の英語入試を解いてみることにする。ただ探してみる日本語がわからなくても解ける問題がまずあまりなく、ようやく見つけたこの 1 問を試してみる。
問. 以下の英文から不要な単語を1語抜き出せ.
Science does and must continually try to bring theory and in fact into closer agreement.
答えは in fact の in で、and が明らかに等位接続ではないのでネイティブからすればなぜこれが日本で一番難しい東大の入試に出るのか不思議そうだった。が、日本の高校で英語を勉強した自分にとってはなんとなく意図はわかる。多分英文和訳をベースにして英語を理解している限りこういう感覚は身につかないよというメッセージなんだろうな。。
(3) プロジェクトの後輩の $ さんとの進捗管理ツールとして JIRA を使い始めた。研究はもちろんウォーターフォールにはいかないが、週一の教授とのミーティングでその週の方向性は大体固まるので、基本アジャイル + 週単位だけスプリントという管理にする。
(4) 関連して自分の方では OKR (Key Objects and Results) を定めるようにした。OKR というのは最終的なゴール (Objective) を分割して *定量的な* Key Results (小目標) を立てるというもの。
2019/11/18-2019/11/24
週の初めは手術の説明でスタート。全身麻酔は必要だけど2日目以降は歩けるらしいので、入院生活は楽そう。ただ怖いもの見たさで体験ブログなんかを読むと 100 % 激痛であることが書かれていて気分が沈んだ。
修論に向けての proposal 発表が研究室であった。受けた指摘としては、
- 目的関数が単調劣モジュラじゃない (greedy には解けない) のではないか → 要調査
- collection とのマッチングは新たに生成したベクトル空間で行う必要があるので、むしろそちらに efficiency のボトルネックがあるのではないか → 確かに
- 次元縮退空間はなぜ動的に生成する必要があるのか → 確かに、ただ BERT みたいな context-aware な embedding でやりたいので事前計算はできない (といっておきながら現状は fasttext なんだけど...)
といった感じ。
2019/11/11-2019/11/17
AAAI に通った!とてもうれしい。朝一に $ からのメールで気づいた (正直それまでは忘れていた)。早速共著者の人たちにメールして喜びを分かち合う。シアトルに行けたらよかったんだけど、さすがに修論発表の前日なのできつそう。
金曜日、NICT の # さんが研究室に来られたので、$さんと自分が研究紹介をする。結構興味を持っていただいたみたいで良かった。LASER に関しては面白いニュースがいくつかあって、その中でも Common Crawl の莫大なコーパスを LASER で embed して NN をとってきて大役コーパスにする facebook らしい力業プロジェクトの話は結構おもしろかった。
Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave and Armand Joulin CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB.
最近 Python の type-aware なデータフローエンジンを書いている。前まで Kafka (faust) とか PySpark とかを試していたけど、(1) パフォーマンスはある程度でよくて (2) 再実験が面倒なので型レベルのエラーは事前に検知してくれて (3) Python で完結する というのはなかなかなかった。faust は結構惜しくて (de) serialize を Python のデータ型で書けるんだけど、あくまで stream 処理なので終わりがないところがネックだった。
2019/10/28-2019/12/03
最近日記が不定期になりすぎている。長い間続けているとどうも日記にも変化が欲しくなるようで、ありきたりの日常を書くのを知らず知らずのうちに避けてしまっているのかなぁ。それか忙しさにかこつけてサボっているだけか。
これだけ前のことになると頭の中からすっかり当時の記憶がなくなっていて、カレンダーを見たりしてなんとか思い出すんだけど、今ふと git log も見ればいいことに気づいた。ということで早速見てみると、commit message の情報量がなさ過ぎて何をやっているのか全然わからない。個人開発だとついないがしろになってしまう commit message も、ある種の日記と思えばちゃんとつけるかもしれない。
病院に行った。最近睡眠時無呼吸症候群ということを耳鼻科の先生に言われて、新大阪にある大病院を紹介してもらった。なんと結構これが重度らしく、いろいろ詳しく調べてもらう。とどうも扁桃腺が大きすぎてこれが気道をふさいでいるらしい。アメリカ行きもあって治せるものは急いで治したかったので、二つ返事で手術をしてもらうことに。