Spark基础学习笔记DataFrame与Dataset

编程入门 行业动态 更新时间:2024-10-11 17:24:54

Spark基础<a href=https://www.elefans.com/category/jswz/34/1770117.html style=学习笔记DataFrame与Dataset"/>

Spark基础学习笔记DataFrame与Dataset

文章目录

  • 一、数据帧 - DataFrame
    • (一)DataFrame概述
    • (二)将RDD转成DataFrame
    • (三)DataFrame与Dataset的关系
  • 二、简单使用Spark SQL
    • (一)、准备数据文件
    • (二)加载数据为Dataset
      • 1、读文件得数据集
      • 2、显示数据集内容
      • 3、显示数据集模式
    • (三)给数据集添加元数据信息
      • 1、定义学生样例类
      • 2、导入隐式转换
      • 3、将数据集转换成学生数据集
      • 4、对学生数据集进行操作

一、数据帧 - DataFrame

(一)DataFrame概述

  • DataFrame是Spark SQL提供的一个编程抽象,与RDD类似,也是一个分布式的数据集合,但与RDD不同,DataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一样。此外,多种数据都可以转化为DataFrame,例如Spark计算过程中生成的RDD、结构化数据文件、Hive中的表、外部数据库等。

(二)将RDD转成DataFrame

  • DataFrame在RDD的基础上添加了数据描述信息(Schema,模式,即元信息),因此看起来更像是一张数据库表。

(三)DataFrame与Dataset的关系

  • 在Spark中,一个DataFrame所代表的是一个元素类型为Row的Dataset,即DataFrame只是Dataset[Row]的一个类型别名。

二、简单使用Spark SQL

(一)、准备数据文件

1,郑秀芸,女,20
2,王志峰,男,18
3,陈燕文,女,21
4,郑国栋,男,19
5,肖雨涵,男,20
  • 执行命令:vi student.txt,创建student.txt文件

  • student.txt上传到HDFS的/input目录(如果目录不存在,就创建起来)

(二)加载数据为Dataset

  • 启动Spark Shell,执行命令:spark-shell --master spark://master:7077

1、读文件得数据集

  • 调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容,并加载为一个Dataset

  • 执行命令:val ds = spark.read.textFile("hdfs://master:9000/input/student.txt")

  • 从变量ds的类型可以看出,textFile()方法将读取的数据转为了Dataset。除了使用textFile()方法读取文本内容外,还可以使用csv()、jdbc()、json()等方法读取CSV文件、JDBC数据源、JSON文件等数据。(csv: comma separated value)

2、显示数据集内容

  • 执行命令:ds.show()
  • 可以看出,Dataset将文件中的每一行看作一个元素,并且所有元素组成了一列,列名默认为value。

3、显示数据集模式

(三)给数据集添加元数据信息

1、定义学生样例类

  • 定义一个样例类Student,用于存放数据描述信息(Schema)
  • 执行命令:case class Student(id: Int, name: String, gender: String, age: Int)
  • 基于样例类创建对象很简单,不需要new关键字,只需要传入相应参数即可创建对象

2、导入隐式转换

  • 导入SparkSession的隐式转换,以便后续可以使用Dataset的算子
  • 执行命令:import spark.implicits._ _表示implicits包里所有的类,类似于Java里的*)

3、将数据集转换成学生数据集

  • 调用Dataset的map()算子将每一个元素拆分并存入Student样例对象
  • 执行命令:paste进入粘贴模式,然后执行红框类的命令
 val studentDS = ds.map(line => {val fields = line.split(",")val id = fields(0).toIntval name = fields(1)val gender = fields(2)val age = fields(3).toIntStudent(id, name, gender, age)
})

4、对学生数据集进行操作

  • 执行命令:studentDS.show()
  • 可以看到,studentDS中的数据类似于一张关系型数据库的表。

更多推荐

Spark基础学习笔记DataFrame与Dataset

本文发布于:2024-03-15 08:59:25,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1738532.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:学习笔记   基础   Spark   DataFrame   Dataset

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!