yarn
Spark on YARNのまとめ Sparkのアーキテクチャとしてクラスタマネージャーはプラッガブル. Spark Standalone 登場人物/役割の総括 Master/Slave (or Wokrer) クラスターマネジャー Driver SparkContextを持っているmainクラス Executor ワーカーで起動され…
YARN SparkのYARN-modeを使うかもしれないので基本をメモ. 1つのJob, DAG of JobsなどのApplicationをクラスターで実行させることが可能 Applicationは,MapReduceに限らない JobTrackerの役割をリソースマネジメントとスケジューリング/モニタリングに分割…
Fault-tolerance Semanticsについての話.基本はここのまとめ Spark RDDのfalut-tolerence semantics Spark RDDのfalut-tolerence semanticsのおさらい. イミュータブルで決定的に再計算可能で分散化されており,自分の決定的操作の系譜を覚えている. ワー…
Performance Tuning基本的にはこれのまとめStreamingで気を配るは以下2点 クラスタのリソースを効率的に使用してのデータバッチの処理時間 バッチを受け取ってからすぐ処理できるような適切なバッチサイズ Reducing the Processing Time of each Batch Spar…
基本的な話のまとめ. 一連のフロー Conf作ってStreamingContextに渡す インプットソースを決める Transformation(s)をして,DStreamに対する出力を決める start, awaitTermination, stopの順で呼ぶ DStream (Discretized Stream) 入ってきたデータをDStream…
お試しで動かしているCloudera Managerを4から5にしたのでその時のメモ. UninstallしてからInstallしていることに注意. Uninstallation この手順に従う http://www.cloudera.com/content/cloudera/en/documentation/cloudera-manager/v4-6-3/Cloudera-Ma…