Read Comparison with pickle vs npy vs mat vs hdf5 format

各種フォーマット

におけるReadの比較を行ったのでそれをレポート

元Data
- cifer10 (obtained from Kaggle so that it is jpeg)
- 50000 images
- 総サイズ: 197M
- 平均サイズ: 3.94 K
変換後のデータ
- formatによって異なるが，中身はnp.ndarryaがいくつかの単位で固まっている

データを読む際は一応disk cacheを削除している．

ここにある

ここにある

line profilerで計測しているけれど最終的な結果のみを示す．

pickle	mat	npy	hdf5
500.2	503.341	532.176	518.693

予想に反してpickleとmatが早かった．

n	pickle	mat	npy	hdf5
32	32.2878	18.6623	18.8135	16.6364
64	15.8134	10.7143	10.662	7.36364
128	14.8304	7.19031	6.70373	3.8299

f:id:KZKY:20150809005958p:plain

hdf5 > npy >= mat > pickle

な感じな気がする．hdf5が早いと教わったのでそのとおりとなった．

これからは，いくつかのchunkになったndarrayの読み出しにはhdf5 (h5py)を使おう．

KZKY memo