Spark on YARN
Spark on YARNのまとめ
Sparkのアーキテクチャとしてクラスタマネージャーはプラッガブル.
Spark Standalone 登場人物/役割の総括
YARNでSpark Applicationを実行するメリット
- YARN上で実行するすべてのフレームワークと同じクラスターリソースプールを共有できるので,クラスタのリソースマネジメントが統一されている.他のモードを使ってしまうと,違う脳が1つの入れ物に複数ある状況になるのでリソースマネジメントがうまく行かない.例えば,SparkはStandalone/MapReduceはYARNの場合.
- YARNのメイン機能,ワークロードのカテゴライズやアイソレーション,優先付が可能になる.
- Executorの数を選択可能.Standaloneだと,あるアプリはすべてのノードで1つのExecutorを起動する.
- セキュリティ対応が可能.ケルベロス認証とかでプロセス間でセキュアな権限付.
Architecutre of Spark on YARN
YARN上でSparkを動かすには,2つのモードがある.
yarn-cluster modeとyarn-client mode.
まず登場人物一覧.
- Client
- Spark Driver
- Spark Executor
- Spark Task
- YARN Container
- YARN Application Master
- YARN Resource Manager
yarn-cluster mode
- プロダクションむき.
- Spark DriverはYARN Application Master内で起動される.
- Clientはアプリを立ち上げたら,もう落ちて良い.