いないち日記

大阪で Information Retrieval を勉強する大学生の日記。

2019/11/11-2019/11/17

AAAI に通った!とてもうれしい。朝一に $ からのメールで気づいた (正直それまでは忘れていた)。早速共著者の人たちにメールして喜びを分かち合う。シアトルに行けたらよかったんだけど、さすがに修論発表の前日なのできつそう。

金曜日、NICT の # さんが研究室に来られたので、$さんと自分が研究紹介をする。結構興味を持っていただいたみたいで良かった。LASER に関しては面白いニュースがいくつかあって、その中でも Common Crawl の莫大なコーパスを LASER で embed して NN をとってきて大役コーパスにする facebook らしい力業プロジェクトの話は結構おもしろかった。

Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave and Armand Joulin CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB.

最近 Python の type-aware なデータフローエンジンを書いている。前まで Kafka (faust) とか PySpark とかを試していたけど、(1) パフォーマンスはある程度でよくて (2) 再実験が面倒なので型レベルのエラーは事前に検知してくれて (3) Python で完結する というのはなかなかなかった。faust は結構惜しくて (de) serialize を Python のデータ型で書けるんだけど、あくまで stream 処理なので終わりがないところがネックだった。