Spark on YARN

spark yarn hadoop

Spark on YARNのまとめ Sparkのアーキテクチャとしてクラスタマネージャーはプラッガブル． Spark Standalone 登場人物/役割の総括 Master/Slave (or Wokrer) クラスターマネジャー Driver SparkContextを持っているmainクラス Executor ワーカーで起動され…

2015-01-12

Hadoop Yarnの基本

hadoop yarn spark

YARN SparkのYARN-modeを使うかもしれないので基本をメモ． 1つのJob, DAG of JobsなどのApplicationをクラスターで実行させることが可能 Applicationは，MapReduceに限らない JobTrackerの役割をリソースマネジメントとスケジューリング/モニタリングに分割…

2014-12-28

Spark Streaming 4

spark spark-streaming scala hadoop yarn akka

Fault-tolerance Semanticsについての話．基本はここのまとめ Spark RDDのfalut-tolerence semantics Spark RDDのfalut-tolerence semanticsのおさらい．イミュータブルで決定的に再計算可能で分散化されており，自分の決定的操作の系譜を覚えている．ワー…

2014-12-28

Spark Streaming 3

spark spark-streaming scala hadoop yarn mesos akka

Performance Tuning基本的にはこれのまとめStreamingで気を配るは以下２点クラスタのリソースを効率的に使用してのデータバッチの処理時間バッチを受け取ってからすぐ処理できるような適切なバッチサイズ Reducing the Processing Time of each Batch Spar…

2014-12-27

Spark Streaming 2

spark spark-streaming hadoop scala yarn

基本的な話のまとめ．一連のフロー Conf作ってStreamingContextに渡すインプットソースを決める Transformation(s)をして，DStreamに対する出力を決める start, awaitTermination, stopの順で呼ぶ DStream (Discretized Stream) 入ってきたデータをDStream…

2014-12-27

Spark Streaming 1

spark spark-streaming scala hadoop

基本的に https://spark.apache.org/docs/latest/streaming-programming-guide.html のまとめ．データソース Kafka Flume HDFS/S3 Kinesis Twitter TCP Akka Actor 処理フロー入ってきたデータをDStream (Discretized Stream)でバッチに分割してバッチ毎の…

2014-12-27

GraphX 4

spark hadoop graphx scala pregel akka

GraphXのPregelAPI関連のまとめ．はじめにGoogleのPregel Paperの概要をまとめてから，GraphXのPregelAPIをまとめる． Pregel Paper 概要 Balk Synchronous Parallelの実装 superstepを１単位としたMessage Passing source verticesからメッセージをdestinat…

2014-12-24

GraphX 1

spark graphx scala pregel

GraphXをさわってみた． GraphXはSparkに内容されているSpark APIの一つ.2014/12/24の時点で0.9なので注意．基本的に https://spark.apache.org/graphx/ https://spark.apache.org/docs/0.9.0/graphx-programming-guide.html#summary-list-of-operators の…

2014-12-24

Execute Spark Application on Eclipse + Spark (Scala) + Gradle

hadoop cdh cloudera manager5 spark gradle eclipse

Eclipse + Spark (Scala) + Gradle でSpark Application(jarファイル)を実行一般的な開発では， EclipseでSpark (Scala)を書く Eclipseで実行したりデバッグしたりする最後にjar化してclusterで実行というステップをとるのが自然だと思う．sbtでbuildでな…

2014-12-22

Cloudera Manager 5 Installation

cloudera manager cm5 cloudera manager5 hadoop spark yarn

お試しで動かしているCloudera Managerを４から５にしたのでその時のメモ． UninstallしてからInstallしていることに注意． Uninstallation この手順に従う http://www.cloudera.com/content/cloudera/en/documentation/cloudera-manager/v4-6-3/Cloudera-Ma…

2014-11-22

Spark RDD (en)

spark hadoop

RDD (Resilient Distributed Dataset) I have investigated RDD which is the core technology on Spark and eventually found that the RDD papers are the most usefull source to understand. Matei Zaharia et al. "Resilient Distributed Datasets: A F…

2014-11-20

Spark RDD

spark hadoop

RDD (Resilient Distributed Dataset) SparkのコアであるRDDに関して調べてみた．結局，文字でちゃんと書いてあるのは論文だった． Matei Zaharia et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing" …

2014-03-23

Spark MLlib SVMを使ってみた

spark MLlib SVM

MLlibのSVMは SVM (L2-regularizer) SVM (L1-regularizer) の２通りがあるよう．ただし，lossはL1-hinge のみのよう． Sample Data Retreival $ git clone https://github.com/apache/incubator-spark.git $ cd incubator-spark/data/* にサンプルデータがあ…

2014-03-23

Spark MLlibの概要

spark MLlib

Machine Learingのライブラリ概要内容がSpark0.9の時のものなので，Spark MLlibの概要 (Spark 1.2) - KZKY's memo Spark MLlibの概要 (Spark 1.2) - KZKY's memoを参考にすること．概要 Machine Learingのライブラリ (充実はしていない) method SVM (L1, L2…

2014-03-22

Eclipse + Scala + Spark でjarファイル実行

spark scala eclipse

一般的な開発では， EclipseでScalaを書く Eclipseで実行したりデバッグしたりする最後にjar化してclusterで実行というステップをとるのが自然だと思う．sbtでbuildでなく，mavenを使ってbuildしたいというのが普通のjavaプログラマーだと思うが， mavenで…

KZKY memo

自分用メモ．

spark

Spark on YARN

Hadoop Yarnの基本

Spark Streaming 4

Spark Streaming 3

Spark Streaming 2

Spark Streaming 1

GraphX 4

GraphX 1

Execute Spark Application on Eclipse + Spark (Scala) + Gradle

Cloudera Manager 5 Installation

Spark RDD (en)

Spark RDD

Spark MLlib SVMを使ってみた

Spark MLlibの概要

Eclipse + Scala + Spark でjarファイル実行