KZKY memo

自分用メモ.

python-online-machine-learning-library 4

python-online-machine-learning-library 3 - KZKY's memo

の続き.


Online Learning Methodsを簡単に評価した.batch methodとの比較では,Liblinearを使用,ただし,Liblinearはscikit-learnのインターフェイスを使用している.

今回はスパースデータを使用した.
パラメータのValidationはしないで,Train/TestはLiblinearのマルチクラスデータセットのページからrcv1, sector(scaled)を持ってきている.

Dataset

Name #Traning Samples #Test Samples #Dimension
sector 6412 3207 55197
rcv1 15564 518571 47236

Hyperparameter

Method name C eta
Liblinear 1 -
Confidence Weighted - 0.9
Soft Confidence Weighted (L1-hinge loss) 1 0.9
Soft Confidence Weighted (L2-hinge loss) 1 0.9

Accuray over epoch for each dataset

通常,Online methodsはデータセットを舐める回数を増やすごとに精度が上がっていつかサチルので,トレーニングデータセットを舐める回数を1回増やす毎にテストデータセットで精度を計算している.Liblinearでは一回学習して予測精度を測った結果をプロットしている.

f:id:KZKY:20141203220236p:plain:w300 f:id:KZKY:20141203220232p:plain:w300

スパースデータの場合はLiblinearのほうが4,5%精度が良い感じ.

だたし,このくらいの差なら前回と同じでパラメータ調整したら同じくらいの結果になると思われる.

MLlib上に実装したいな.そろそろgraphXを触らなくては...