KZKY memo

自分用メモ.

spark

Spark on YARN

Spark on YARNのまとめ Sparkのアーキテクチャとしてクラスタマネージャーはプラッガブル. Spark Standalone 登場人物/役割の総括 Master/Slave (or Wokrer) クラスターマネジャー Driver SparkContextを持っているmainクラス Executor ワーカーで起動され…

Hadoop Yarnの基本

YARN SparkのYARN-modeを使うかもしれないので基本をメモ. 1つのJob, DAG of JobsなどのApplicationをクラスターで実行させることが可能 Applicationは,MapReduceに限らない JobTrackerの役割をリソースマネジメントとスケジューリング/モニタリングに分割…

Spark Streaming 4

Fault-tolerance Semanticsについての話.基本はここのまとめ Spark RDDのfalut-tolerence semantics Spark RDDのfalut-tolerence semanticsのおさらい. イミュータブルで決定的に再計算可能で分散化されており,自分の決定的操作の系譜を覚えている. ワー…

Spark Streaming 3

Performance Tuning基本的にはこれのまとめStreamingで気を配るは以下2点 クラスタのリソースを効率的に使用してのデータバッチの処理時間 バッチを受け取ってからすぐ処理できるような適切なバッチサイズ Reducing the Processing Time of each Batch Spar…

Spark Streaming 2

基本的な話のまとめ. 一連のフロー Conf作ってStreamingContextに渡す インプットソースを決める Transformation(s)をして,DStreamに対する出力を決める start, awaitTermination, stopの順で呼ぶ DStream (Discretized Stream) 入ってきたデータをDStream…

Spark Streaming 1

基本的に https://spark.apache.org/docs/latest/streaming-programming-guide.html のまとめ. データソース Kafka Flume HDFS/S3 Kinesis Twitter TCP Akka Actor 処理フロー 入ってきたデータをDStream (Discretized Stream)でバッチに分割してバッチ毎の…

GraphX 4

GraphXのPregelAPI関連のまとめ.はじめにGoogleのPregel Paperの概要をまとめてから,GraphXのPregelAPIをまとめる. Pregel Paper 概要 Balk Synchronous Parallelの実装 superstepを1単位としたMessage Passing source verticesからメッセージをdestinat…

GraphX 1

GraphXをさわってみた. GraphXはSparkに内容されているSpark APIの一つ.2014/12/24の時点で0.9なので注意. 基本的に https://spark.apache.org/graphx/ https://spark.apache.org/docs/0.9.0/graphx-programming-guide.html#summary-list-of-operators の…

Execute Spark Application on Eclipse + Spark (Scala) + Gradle

Eclipse + Spark (Scala) + Gradle でSpark Application(jarファイル)を実行一般的な開発では, EclipseでSpark (Scala)を書く Eclipseで実行したりデバッグしたりする 最後にjar化してclusterで実行 というステップをとるのが自然だと思う.sbtでbuildでな…

Cloudera Manager 5 Installation

お試しで動かしているCloudera Managerを4から5にしたのでその時のメモ. UninstallしてからInstallしていることに注意. Uninstallation この手順に従う http://www.cloudera.com/content/cloudera/en/documentation/cloudera-manager/v4-6-3/Cloudera-Ma…

Spark RDD (en)

RDD (Resilient Distributed Dataset) I have investigated RDD which is the core technology on Spark and eventually found that the RDD papers are the most usefull source to understand. Matei Zaharia et al. "Resilient Distributed Datasets: A F…

Spark RDD

RDD (Resilient Distributed Dataset) SparkのコアであるRDDに関して調べてみた.結局,文字でちゃんと書いてあるのは論文だった. Matei Zaharia et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing" …

Spark MLlib SVMを使ってみた

MLlibのSVMは SVM (L2-regularizer) SVM (L1-regularizer) の2通りがあるよう.ただし,lossはL1-hinge のみのよう. Sample Data Retreival $ git clone https://github.com/apache/incubator-spark.git $ cd incubator-spark/data/* にサンプルデータがあ…

Spark MLlibの概要

Machine Learingのライブラリ概要内容がSpark0.9の時のものなので,Spark MLlibの概要 (Spark 1.2) - KZKY's memo Spark MLlibの概要 (Spark 1.2) - KZKY's memoを参考にすること. 概要 Machine Learingのライブラリ (充実はしていない) method SVM (L1, L2…

Eclipse + Scala + Spark でjarファイル実行

一般的な開発では, EclipseでScalaを書く Eclipseで実行したりデバッグしたりする 最後にjar化してclusterで実行 というステップをとるのが自然だと思う.sbtでbuildでなく,mavenを使ってbuildしたいというのが普通のjavaプログラマーだと思うが, mavenで…