人生のステージに応じた壁と井口祐未

これは SHIROBAKO Advent Calendar 2019 22 日目の記事です。 SHIROBAKO とは一体何なのか。この問いに対して 10日目の記事では、「辿り着きたい場所」に向かっていく物語という一つの仮説にたどり着いていました。答えは無数にありそうですが、それを抽…

2019-09-10

WebDB Forum 2019で技術報告しました

9月8日〜9日で開催されたWebDB Forum 2019に、スポンサー企業の技術報告という形で登壇しました。 db-event.jpn.org 8日の夜から9日の早朝にかけて台風15号が直撃するというまさかの展開を迎えましたが、柔軟なスケジュール変更で予定されていた全てのセッシ…

2019-08-09

Wikipediaを活用した表記ゆれへの対応

自然言語処理 Wikipedia

自然言語処理のタスクにおいて、表記ゆれの問題が常につきまといます。単純なパターンであれば単純なルールで対処が可能です。例えばアルファベットの大文字・小文字の混在であれば全て小文字に変換すれば良いし、半角文字と全角文字の混在であれば全て全角…

2019-07-22

ダウンサンプリングによる予測確率のバイアス

Python 不均衡データ機械学習

機械学習（二値分類問題を考えます）において不均衡なデータセット（クラス間でサンプルサイズが大きく異なる）を扱う場合、多数派のクラスのサンプルに対してサンプリング行い均衡なデータセットに変換するダウンサンプリングが良く行われます。この不均衡…

2019-07-15

滝沢カレンを作る技術

機械学習 Deep Learning 言語モデル滝沢カレン文書生成

滝沢カレン（以下、敬称略）をご存知でしょうか。ファッション雑誌『JJ』専属モデルであり、モデルやタレントとして活躍されています。*1 そんな彼女の書く文章は非常に豊かな表現で構成されており、一部では純文学とも評されています。近年、彼女の文章を…

2019-06-30

【論文紹介】Deep Interest Network for Click-Through Rate Prediction

機械学習論文 CTR予測 Deep Learning Embedding

今回は、KDD 2018で発表されたCTR (Click Through Rate) 予測に関する論文 Deep Interest Network for Click-Through Rate Prediction を紹介したいと思います。CTR予測は、広義では注目している行動を起こす確率予測であるので、レコメンドに関する論文と捉…

2019-05-23

LDAを用いたカテゴリ変数からの特徴抽出

機械学習カテゴリ変数 LDA

kaggleのTalkingData AdTracking Fraud Detection Challengeで1位になったチームの解法の1つである、トピックモデルを用いたカテゴリからの特徴抽出を試してみたので紹介します。 Pythonでの実装はこちらです。 github.com 概要参考にしたのは、kaggleでの…