Spark Streaming概述 特点 架构

编程入门 行业动态 更新时间:2024-10-26 04:26:30

Spark Streaming概述 特点 <a href=https://www.elefans.com/category/jswz/34/1771112.html style=架构"/>

Spark Streaming概述 特点 架构

目录

    • Spark Streaming概述
    • Spark Core&Spark SQL&Spark Streaming简单概括
    • Spark Streaming特点
    • Spark Streaming架构
      • Spark Streaming 架构图
      • Spark Streaming 背压机制
    • DStream概述
    • DStream特点

Spark Streaming概述

  1. Spark Streaming 是Saprk框架用于流式数据处理的功能模块,在 Spark Streaming 中,数据处理的单位是一小批而不是单条,而数据采集却是逐条进行的,因此 Spark Streaming 中需要设置时间间隔使得数据汇总到一定的量后再一并操作

  2. 和Spark基于RDD的概念很相似,Spark Streaming使用了一个高级抽象离散化流(discretized stream),叫作DStream

Spark Core&Spark SQL&Spark Streaming简单概括

spark corespark sqlspark streaming
程序执行入口SparkContextSparkSessionStreamingContext
对应的APIRDDDS/DFDStream

Spark Streaming特点

微批次准实时流式数据处理框架

Spark Streaming架构

Spark Streaming 架构图

Spark Streaming 背压机制

背压机制探讨的是Executor接收数据和处理数据速率是否一致的问题。Executor中有个专门接收数据的Receiver,在Spark1.5版本以前,如果想要限制Receiver接收数据的速率,可以通过设置参数“spark.streaming.receiver.maxRate”来实现,但是有可能造成Executor接收数据的速率高于处理数据的速率,那就会造成计算结点内存溢出等问题。为了解决这个问题,Spark1.5版本后,提供了背压机制,简单点来说,就是根据Executor处理数据的速率来动态决定Receiver接收数据的速率。相关参数为spark.streaming.backpressure.enabled,默认值false

DStream概述

Discretized Stream是Spark Streaming的基础抽象。在内部实现上,DStream是一系列连续的RDD来表示,每个RDD含有一段时间间隔内的数据,对这些RDD的转换是由Spark引擎来计算的, DStream的操作隐藏了的大多数的细节, 只提供给开发者了方便实用的高级 API

DStream特点

  1. 一旦StreamingContext已经启动, 则不能再添加新的 streaming computations

  2. 一旦一个StreamingContext已经停止(StreamingContext.stop()), 不能再重启

  3. 在一个 JVM 内, 同一时间只能启动一个StreamingContext

  4. stop() 的方式停止StreamingContext, 也会把SparkContext停掉. 如果仅仅想停止StreamingContext, 则应该这样: stop(false)

  5. 一个SparkContext可以重用去创建多个StreamingContext, 前提是以前的StreamingContext已经停掉,并且SparkContext没有被停掉

更多推荐

Spark Streaming概述 特点 架构

本文发布于:2023-07-28 17:48:23,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1267035.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:架构   Spark   Streaming

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!