KZKY memo

自分用メモ.

spark-streaming

Spark Streaming 4

Fault-tolerance Semanticsについての話.基本はここのまとめ Spark RDDのfalut-tolerence semantics Spark RDDのfalut-tolerence semanticsのおさらい. イミュータブルで決定的に再計算可能で分散化されており,自分の決定的操作の系譜を覚えている. ワー…

Spark Streaming 3

Performance Tuning基本的にはこれのまとめStreamingで気を配るは以下2点 クラスタのリソースを効率的に使用してのデータバッチの処理時間 バッチを受け取ってからすぐ処理できるような適切なバッチサイズ Reducing the Processing Time of each Batch Spar…

Spark Streaming 2

基本的な話のまとめ. 一連のフロー Conf作ってStreamingContextに渡す インプットソースを決める Transformation(s)をして,DStreamに対する出力を決める start, awaitTermination, stopの順で呼ぶ DStream (Discretized Stream) 入ってきたデータをDStream…

Spark Streaming 1

基本的に https://spark.apache.org/docs/latest/streaming-programming-guide.html のまとめ. データソース Kafka Flume HDFS/S3 Kinesis Twitter TCP Akka Actor 処理フロー 入ってきたデータをDStream (Discretized Stream)でバッチに分割してバッチ毎の…