KZKY memo

自分用メモ.

2014-11-01から1ヶ月間の記事一覧

python-online-machine-learning-library 3

python-online-machine-learning-library 2 - KZKY memo python-online-machine-learning-library 2 - KZKY memoの続き.Online Learning Methodsを簡単に評価した.batch methodとの比較では,Liblinearを使用,ただし,Liblinearはscikit-learnを使用して…

python-online-machine-learning-library 2

この記事の続き.python-online-machine-learning-library - KZKY's memo python-online-machine-learning-library - KZKY's memo ここでDLできる.Confidence WeightedとExactly Soft Confidence Weightedは 多値分類 スパースデータ の対応をした. 次はLi…

Sparse Dataset Loader

load_svmlight_file scikit-learnにおける便利関数の話.NPLとか高次元スパースデータ記述方法で次のような形式がある. libsvm/liblinear/svmlightで使用されているインプットファイルフォーマット. <label><space><feature-id>:<feature-value><space><feature-id>:<feature-value><space>.... <label><space><feature-id>:<feature-value><space><feature-id>:<feature-value><space>...…</space></feature-value></feature-id></space></feature-value></feature-id></space></label></space></feature-value></feature-id></space></feature-value></feature-id></space></label>

DictVectorizer

DictVectorizer scikit-learnにある便利ツールの話.今までカテゴリカルデータは自分でインデクシングして,OneHotEncodingや1-of-Kと呼ばれる行列を作っていた.しかし,scikit-learnには,この機能を提供する便利クラスが用意されてる. それがDictVectori…

Spark RDD (en)

RDD (Resilient Distributed Dataset) I have investigated RDD which is the core technology on Spark and eventually found that the RDD papers are the most usefull source to understand. Matei Zaharia et al. "Resilient Distributed Datasets: A F…

Hadoop Cluster Provisioning (en)

HDD Use JBOD (Just a Bunch of Disk ) as an architecture using multiple hard drives Do not use RAID For a master node, it is possible to use RAID 1+0 for durability Better to use the number of HDD which is at leat grater than or equal to th…

Hadoop Cluster Provisioning

Hadoop Cluster 構築 Hadoop Clusterの構築のメモ. HDD HDFSは必ずJBOD (Just a Bunch of Disk)で構成すること (RAIDは使わない) Masterは使ってもいと思うがRAID1+0がいいと思う CPU Core数の半分以上はHDDを載せたほうがいいと思う (確かにI/O-boundだけ…

Spark RDD

RDD (Resilient Distributed Dataset) SparkのコアであるRDDに関して調べてみた.結局,文字でちゃんと書いてあるのは論文だった. Matei Zaharia et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing" …

Python DI Framework Pinject

Googleの人が作った (Google公式のProjectではない)Python DI Frameworkらしい. 結構簡単に使える.数人で開発する場合に,全体のロジックやSWアーキは自分で握って, クラス単位で他人が作成したものに差し替えたいという場合は, スクリプトといえど,DI…

Python DI Framework memo

Injector https://pypi.python.org/pypi/injector simple DLは多い Inject https://pypi.python.org/pypi/Inject/3.1.1 DLはすくない (Injectorと比べて) Pinject https://github.com/google/pinject http://d.hatena.ne.jp/heavenshell/20140121/1390304783…

python threading for I/O-bound processing

pythonのthreadingは,GILの影響でCPU-boundな処理はserialと変わらない時間で実行されるが,I/O-boundな処理はそうでもないと聞いたことがある.本当にそうなのかと思って,MB単位のzip filesを解凍するというI/O-boundなタスクで,I/O-boundなタスクがthre…

CherryPy 入門/まとめ

概要 CherryPyは,軽量なpython WAF.もっと軽量でSinatra-likeに書けるpython WAFにFlask/Bottleがあるが,オブジェクト志向のように書けて,URL Routingとオブジェクトツリーを対応させたい場合にはCherryPyが良いと思う. Fullstack WAFだとDjangoが圧倒…