Flink的时间类型和窗口概述,助你进阶Flink,畅游大数据时代

编程入门 行业动态 更新时间:2024-10-11 19:14:03

Flink的时间类型和窗口概述,助你<a href=https://www.elefans.com/category/jswz/34/1769503.html style=进阶Flink,畅游大数据时代"/>

Flink的时间类型和窗口概述,助你进阶Flink,畅游大数据时代

前言

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。而Flink中的时间类型和窗口是非常重要概念,也是学习Flink必须要掌握的两个知识点。今天我们就来探讨一下这两个知识点。

Flink中的时间类型

时间类型介绍

Flink流式处理中支持不同类型的时间。分为以下几种:

  1. 处理时间
    • Flink程序执行对应操作的系统时间。所有基于时间的操作(例如:时间窗口)都将使用运行相应operator的系统时间。例如:每个小时的处理时间窗口包括在系统时间范围内所有operator接收到的记录。例如:如果应用程序在09:15开始运行,则第一个滚动时间窗口将包括:09:15 – 10:00 之间的处理事件,下一个窗口包括上午10:00 – 11:00之间的处理事件
    • 这种处理时间方式实时性是最好的,但数据未必准确
  2. 事件时间
    • 每个事件发生的时间。这个时间一般是在进入到Flink之前就包含在事件中
    • 针对Eventtime,事件被处理的时间以来与事件本身
    • Eventtime必须要指定如何生成Eventtime Watermark(水印)
    • 理想情况,不管事件何时到达或者顺序如何,事件时间处理能够得到完整一致地结果。
    • 事件处理在等待乱序事件时,会产生一些延迟。这样会对Eventtime的应用性能有一定的影响
  3. 摄入时间
    • 摄入时间是事件进入Flink的时间
    • 在source operator中,每个记录以时间戳的形式获取源的当前时间
    • 它在概念是处于事件时间和处理时间中间
    • 摄入时间不能处理乱序问题或者延迟数据,摄入时间可以由流式系统自动生成水印

Flink代码中设置时间类型

通常,我们在Flink初始化流式运行环境时,就会设置流处理时间特性。这个设置很重要,它决定了数据流的行为方式。(例如:是否需要给事件分配时间戳),以及窗口操作应该使用什么样的时间类型。例如:KeyedStream.timeWindow(Time.seconds(30))。

我们接下来通过实现一个每5秒中进行一次单词计数的案例,来说明Flink中如何指定时间类型。

public class WordCountWindow {public static void main(String[] args) throws Exception {// 1. 初始化流式运行环境Configuration conf = new Configuration();StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(conf);// 2. 设置时间处理类型,这里设置的方式处理时间env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);// 3. 定义数据源,每秒发送一个hadoop单词DataStreamSource<String> wordDS = env.addSource(new RichSourceFunction<String>() {private boolean isCanaled = false;@Overridepublic void run(SourceContext<String> ctx) throws Exception {while (!isCanaled) {ctx.collect("hadooop");Thread.sleep(1000);}}@Overridepublic void cancel() {isCanaled = true;}});// 4. 每5秒进行一次,分组统计// 4.1 转换为元组wordDS.map(word -> Tuple2.of(word, 1))// 指定返回类型.returns(Types.TUPLE(Types.STRING, Types.INT))// 按照单词进行分组.keyBy(t -> t.f0)// 滚动窗口,3秒计算一次.timeWindow(Time.seconds(3)).reduce(new ReduceFunction<Tuple2<String, Integer>>() {@Overridepublic Tuple2<String, Integer> reduce(Tuple2<String, Integer&g

更多推荐

Flink的时间类型和窗口概述,助你进阶Flink,畅游大数据时代

本文发布于:2024-03-08 20:07:02,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1722158.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:进阶   窗口   类型   时间   时代

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!