Spark on YARN

spark yarn hadoop

Spark on YARNのまとめ Sparkのアーキテクチャとしてクラスタマネージャーはプラッガブル． Spark Standalone 登場人物/役割の総括 Master/Slave (or Wokrer) クラスターマネジャー Driver SparkContextを持っているmainクラス Executor ワーカーで起動され…

2015-01-12

Hadoop Yarnの基本

hadoop yarn spark

YARN SparkのYARN-modeを使うかもしれないので基本をメモ． 1つのJob, DAG of JobsなどのApplicationをクラスターで実行させることが可能 Applicationは，MapReduceに限らない JobTrackerの役割をリソースマネジメントとスケジューリング/モニタリングに分割…

2014-12-28

Spark Streaming 4

spark spark-streaming scala hadoop yarn akka

Fault-tolerance Semanticsについての話．基本はここのまとめ Spark RDDのfalut-tolerence semantics Spark RDDのfalut-tolerence semanticsのおさらい．イミュータブルで決定的に再計算可能で分散化されており，自分の決定的操作の系譜を覚えている．ワー…

2014-12-28

Spark Streaming 3

spark spark-streaming scala hadoop yarn mesos akka

Performance Tuning基本的にはこれのまとめStreamingで気を配るは以下２点クラスタのリソースを効率的に使用してのデータバッチの処理時間バッチを受け取ってからすぐ処理できるような適切なバッチサイズ Reducing the Processing Time of each Batch Spar…

2014-12-27

Spark Streaming 2

spark spark-streaming hadoop scala yarn

基本的な話のまとめ．一連のフロー Conf作ってStreamingContextに渡すインプットソースを決める Transformation(s)をして，DStreamに対する出力を決める start, awaitTermination, stopの順で呼ぶ DStream (Discretized Stream) 入ってきたデータをDStream…

2014-12-27

Spark Streaming 1

spark spark-streaming scala hadoop

基本的に https://spark.apache.org/docs/latest/streaming-programming-guide.html のまとめ．データソース Kafka Flume HDFS/S3 Kinesis Twitter TCP Akka Actor 処理フロー入ってきたデータをDStream (Discretized Stream)でバッチに分割してバッチ毎の…

2014-12-27

GraphX 4

spark hadoop graphx scala pregel akka

GraphXのPregelAPI関連のまとめ．はじめにGoogleのPregel Paperの概要をまとめてから，GraphXのPregelAPIをまとめる． Pregel Paper 概要 Balk Synchronous Parallelの実装 superstepを１単位としたMessage Passing source verticesからメッセージをdestinat…

2014-12-24

Execute Spark Application on Eclipse + Spark (Scala) + Gradle

hadoop cdh cloudera manager5 spark gradle eclipse

Eclipse + Spark (Scala) + Gradle でSpark Application(jarファイル)を実行一般的な開発では， EclipseでSpark (Scala)を書く Eclipseで実行したりデバッグしたりする最後にjar化してclusterで実行というステップをとるのが自然だと思う．sbtでbuildでな…

2014-12-22

Cloudera Manager 5 Installation

cloudera manager cm5 cloudera manager5 hadoop spark yarn

お試しで動かしているCloudera Managerを４から５にしたのでその時のメモ． UninstallしてからInstallしていることに注意． Uninstallation この手順に従う http://www.cloudera.com/content/cloudera/en/documentation/cloudera-manager/v4-6-3/Cloudera-Ma…

2014-11-22

Spark RDD (en)

spark hadoop

RDD (Resilient Distributed Dataset) I have investigated RDD which is the core technology on Spark and eventually found that the RDD papers are the most usefull source to understand. Matei Zaharia et al. "Resilient Distributed Datasets: A F…

2014-11-22

Hadoop Cluster Provisioning (en)

hadoop

HDD Use JBOD (Just a Bunch of Disk ) as an architecture using multiple hard drives Do not use RAID For a master node, it is possible to use RAID 1+0 for durability Better to use the number of HDD which is at leat grater than or equal to th…

2014-11-21

Hadoop Cluster Provisioning

hadoop

Hadoop Cluster 構築 Hadoop Clusterの構築のメモ． HDD HDFSは必ずJBOD (Just a Bunch of Disk)で構成すること (RAIDは使わない) Masterは使ってもいと思うがRAID1+0がいいと思う CPU Core数の半分以上はHDDを載せたほうがいいと思う (確かにI/O-boundだけ…

2014-11-20

Spark RDD

spark hadoop

RDD (Resilient Distributed Dataset) SparkのコアであるRDDに関して調べてみた．結局，文字でちゃんと書いてあるのは論文だった． Matei Zaharia et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing" …

2013-10-26

hadoopチューニングのためのパラメータ関連のメモ．

hadoop

象本参考全体方針 shuffleにたくさんメモリを使ってspill to diskがなるべく起こらないようにする mapreduceではなるべくメモリを使わないようにする．パラメータ mapred.child.java.opts: -Xmx200m : child JVMのメモリ mapred.tasktracker.map.tasks.ma…

KZKY memo

自分用メモ．

hadoop

Spark on YARN

Hadoop Yarnの基本

Spark Streaming 4

Spark Streaming 3

Spark Streaming 2

Spark Streaming 1

GraphX 4

Execute Spark Application on Eclipse + Spark (Scala) + Gradle

Cloudera Manager 5 Installation

Spark RDD (en)

Hadoop Cluster Provisioning (en)

Hadoop Cluster Provisioning

Spark RDD

hadoopチューニングのためのパラメータ関連のメモ．