教程"/>
Apache Beam+Spark教程
本文是基于Apache Beam 2.0编写代码,调用Apache Spark 1.6.2集群,读取Mongodb数据进行相应逻辑处理的例子。
配置环境
首先通过Maven构建Apache Beam项目的依赖,不清楚的,可以去官网下载word-count-beam例子,里面基本包含了所需的依赖。然后关于Spark集群是采取独立部署模式,不再赘述,Mongodb没什么说的。
初始化
为了更好的复用代码,所以需要在执行的时候指定参数,如果不需要,可以跳过此步骤。 为了获取参数,需要新建一个类继承PiplineOptions,然后设置好Set和Get方法。参考下方代码。 public interface MyOption extends PipelineOptions {@Description(" input Collection") //参数描述String getInPath(); /
更多推荐
Apache Beam+Spark教程
发布评论