ダウンサンプリングによる予測確率のバイアス

Python 不均衡データ機械学習

機械学習（二値分類問題を考えます）において不均衡なデータセット（クラス間でサンプルサイズが大きく異なる）を扱う場合、多数派のクラスのサンプルに対してサンプリング行い均衡なデータセットに変換するダウンサンプリングが良く行われます。この不均衡…

2019-07-15

滝沢カレンを作る技術

機械学習 Deep Learning 言語モデル滝沢カレン文書生成

滝沢カレン（以下、敬称略）をご存知でしょうか。ファッション雑誌『JJ』専属モデルであり、モデルやタレントとして活躍されています。*1 そんな彼女の書く文章は非常に豊かな表現で構成されており、一部では純文学とも評されています。近年、彼女の文章を…

2019-06-30

【論文紹介】Deep Interest Network for Click-Through Rate Prediction

機械学習論文 CTR予測 Deep Learning Embedding

今回は、KDD 2018で発表されたCTR (Click Through Rate) 予測に関する論文 Deep Interest Network for Click-Through Rate Prediction を紹介したいと思います。CTR予測は、広義では注目している行動を起こす確率予測であるので、レコメンドに関する論文と捉…

2019-05-23

LDAを用いたカテゴリ変数からの特徴抽出

機械学習カテゴリ変数 LDA

kaggleのTalkingData AdTracking Fraud Detection Challengeで1位になったチームの解法の1つである、トピックモデルを用いたカテゴリからの特徴抽出を試してみたので紹介します。 Pythonでの実装はこちらです。 github.com 概要参考にしたのは、kaggleでの…

2019-04-11

機械学習の実用的な評価値チートシート

機械学習評価値

機械学習の評価値として、Accuracy/Precision/Recall/F1などが教科書にも載っており、最も有名な評価値だと思います。ただ実産業への応用において、これらの評価値では正しくモデルの性能を評価できないことが多く、多くの機械学習エンジニアやデータサイエ…

2019-03-25

カテゴリ変数の分散表現を学習するEntity Embeddingの実装

Python 機械学習カテゴリ変数 Embedding

機械学習においてカテゴリ変数を扱うとき、何らかの変換を施して任意の数値で表現しなければなりません。今回はWord2Vecのように任意のカテゴリ変数の分散表現を学習する、Entity Embeddingの紹介とそのPythonの実装をライブラリとして公開したので紹介しま…

2018-10-20

PyData.tokyo One-day Conference 2018に参加した

python 機械学習 PyData

PyData.tokyo One-day Conference 2018に参加したので、メモ書きを記載する。 pydatatokyo.connpass.com なお自分の記憶のためのメモなので、内容の正確さは保証できません。 PyData.Tokyo データ分析のための Python パフォーマンスチューニングテクニック …