Apache Beam+Spark教程

编程入门行业动态更新时间:2024-10-25 19:23:07

Apache Beam+Spark<a href=https://www.elefans.com/category/jswz/34/1771193.html style= 教程"/>

本文是基于Apache Beam 2.0编写代码，调用Apache Spark 1.6.2集群，读取Mongodb数据进行相应逻辑处理的例子。

配置环境

首先通过Maven构建Apache Beam项目的依赖，不清楚的，可以去官网下载word-count-beam例子，里面基本包含了所需的依赖。然后关于Spark集群是采取独立部署模式，不再赘述，Mongodb没什么说的。

初始化

为了更好的复用代码，所以需要在执行的时候指定参数，如果不需要，可以跳过此步骤。为了获取参数，需要新建一个类继承PiplineOptions，然后设置好Set和Get方法。参考下方代码。

 public interface MyOption extends PipelineOptions {@Description(" input Collection")  //参数描述String getInPath();                /

更多推荐

Apache Beam+Spark教程

本文发布于:2024-02-26 05:26:23，感谢您对本站的认可！

教程 Apache Beam Spark

评论列表（有 0 条评论）