KZKY memo

自分用メモ.

yarn

Spark on YARN

Spark on YARNのまとめ Sparkのアーキテクチャとしてクラスタマネージャーはプラッガブル. Spark Standalone 登場人物/役割の総括 Master/Slave (or Wokrer) クラスターマネジャー Driver SparkContextを持っているmainクラス Executor ワーカーで起動され…

Hadoop Yarnの基本

YARN SparkのYARN-modeを使うかもしれないので基本をメモ. 1つのJob, DAG of JobsなどのApplicationをクラスターで実行させることが可能 Applicationは,MapReduceに限らない JobTrackerの役割をリソースマネジメントとスケジューリング/モニタリングに分割…

Spark Streaming 4

Fault-tolerance Semanticsについての話.基本はここのまとめ Spark RDDのfalut-tolerence semantics Spark RDDのfalut-tolerence semanticsのおさらい. イミュータブルで決定的に再計算可能で分散化されており,自分の決定的操作の系譜を覚えている. ワー…

Spark Streaming 3

Performance Tuning基本的にはこれのまとめStreamingで気を配るは以下2点 クラスタのリソースを効率的に使用してのデータバッチの処理時間 バッチを受け取ってからすぐ処理できるような適切なバッチサイズ Reducing the Processing Time of each Batch Spar…

Spark Streaming 2

基本的な話のまとめ. 一連のフロー Conf作ってStreamingContextに渡す インプットソースを決める Transformation(s)をして,DStreamに対する出力を決める start, awaitTermination, stopの順で呼ぶ DStream (Discretized Stream) 入ってきたデータをDStream…

Cloudera Manager 5 Installation

お試しで動かしているCloudera Managerを4から5にしたのでその時のメモ. UninstallしてからInstallしていることに注意. Uninstallation この手順に従う http://www.cloudera.com/content/cloudera/en/documentation/cloudera-manager/v4-6-3/Cloudera-Ma…