KZKY memo

自分用メモ.

hadoop

Spark on YARN

Spark on YARNのまとめ Sparkのアーキテクチャとしてクラスタマネージャーはプラッガブル. Spark Standalone 登場人物/役割の総括 Master/Slave (or Wokrer) クラスターマネジャー Driver SparkContextを持っているmainクラス Executor ワーカーで起動され…

Hadoop Yarnの基本

YARN SparkのYARN-modeを使うかもしれないので基本をメモ. 1つのJob, DAG of JobsなどのApplicationをクラスターで実行させることが可能 Applicationは,MapReduceに限らない JobTrackerの役割をリソースマネジメントとスケジューリング/モニタリングに分割…

Spark Streaming 4

Fault-tolerance Semanticsについての話.基本はここのまとめ Spark RDDのfalut-tolerence semantics Spark RDDのfalut-tolerence semanticsのおさらい. イミュータブルで決定的に再計算可能で分散化されており,自分の決定的操作の系譜を覚えている. ワー…

Spark Streaming 3

Performance Tuning基本的にはこれのまとめStreamingで気を配るは以下2点 クラスタのリソースを効率的に使用してのデータバッチの処理時間 バッチを受け取ってからすぐ処理できるような適切なバッチサイズ Reducing the Processing Time of each Batch Spar…

Spark Streaming 2

基本的な話のまとめ. 一連のフロー Conf作ってStreamingContextに渡す インプットソースを決める Transformation(s)をして,DStreamに対する出力を決める start, awaitTermination, stopの順で呼ぶ DStream (Discretized Stream) 入ってきたデータをDStream…

Spark Streaming 1

基本的に https://spark.apache.org/docs/latest/streaming-programming-guide.html のまとめ. データソース Kafka Flume HDFS/S3 Kinesis Twitter TCP Akka Actor 処理フロー 入ってきたデータをDStream (Discretized Stream)でバッチに分割してバッチ毎の…

GraphX 4

GraphXのPregelAPI関連のまとめ.はじめにGoogleのPregel Paperの概要をまとめてから,GraphXのPregelAPIをまとめる. Pregel Paper 概要 Balk Synchronous Parallelの実装 superstepを1単位としたMessage Passing source verticesからメッセージをdestinat…

Execute Spark Application on Eclipse + Spark (Scala) + Gradle

Eclipse + Spark (Scala) + Gradle でSpark Application(jarファイル)を実行一般的な開発では, EclipseでSpark (Scala)を書く Eclipseで実行したりデバッグしたりする 最後にjar化してclusterで実行 というステップをとるのが自然だと思う.sbtでbuildでな…

Cloudera Manager 5 Installation

お試しで動かしているCloudera Managerを4から5にしたのでその時のメモ. UninstallしてからInstallしていることに注意. Uninstallation この手順に従う http://www.cloudera.com/content/cloudera/en/documentation/cloudera-manager/v4-6-3/Cloudera-Ma…

Spark RDD (en)

RDD (Resilient Distributed Dataset) I have investigated RDD which is the core technology on Spark and eventually found that the RDD papers are the most usefull source to understand. Matei Zaharia et al. "Resilient Distributed Datasets: A F…

Hadoop Cluster Provisioning (en)

HDD Use JBOD (Just a Bunch of Disk ) as an architecture using multiple hard drives Do not use RAID For a master node, it is possible to use RAID 1+0 for durability Better to use the number of HDD which is at leat grater than or equal to th…

Hadoop Cluster Provisioning

Hadoop Cluster 構築 Hadoop Clusterの構築のメモ. HDD HDFSは必ずJBOD (Just a Bunch of Disk)で構成すること (RAIDは使わない) Masterは使ってもいと思うがRAID1+0がいいと思う CPU Core数の半分以上はHDDを載せたほうがいいと思う (確かにI/O-boundだけ…

Spark RDD

RDD (Resilient Distributed Dataset) SparkのコアであるRDDに関して調べてみた.結局,文字でちゃんと書いてあるのは論文だった. Matei Zaharia et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing" …

hadoopチューニングのためのパラメータ関連のメモ.

象本参考 全体 方針 shuffleにたくさんメモリを使ってspill to diskがなるべく起こらないようにする mapreduceではなるべくメモリを使わないようにする. パラメータ mapred.child.java.opts: -Xmx200m : child JVMのメモリ mapred.tasktracker.map.tasks.ma…