Spark基础学习笔记DataFrame与Dataset

编程入门行业动态更新时间:2024-10-11 17:24:54

Spark基础<a href=https://www.elefans.com/category/jswz/34/1770117.html style= 学习笔记DataFrame与Dataset"/>

Spark基础学习笔记DataFrame与Dataset

文章目录

一、数据帧 - DataFrame
- （一）DataFrame概述
- （二）将RDD转成DataFrame
- （三）DataFrame与Dataset的关系
二、简单使用Spark SQL
- （一）、准备数据文件
- （二）加载数据为Dataset
- - 1、读文件得数据集
  - 2、显示数据集内容
  - 3、显示数据集模式
- （三）给数据集添加元数据信息
- - 1、定义学生样例类
  - 2、导入隐式转换
  - 3、将数据集转换成学生数据集
  - 4、对学生数据集进行操作

一、数据帧 - DataFrame

（一）DataFrame概述

DataFrame是Spark SQL提供的一个编程抽象，与RDD类似，也是一个分布式的数据集合，但与RDD不同，DataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一样。此外，多种数据都可以转化为DataFrame，例如Spark计算过程中生成的RDD、结构化数据文件、Hive中的表、外部数据库等。

（二）将RDD转成DataFrame

DataFrame在RDD的基础上添加了数据描述信息（Schema，模式，即元信息），因此看起来更像是一张数据库表。

（三）DataFrame与Dataset的关系

在Spark中，一个DataFrame所代表的是一个元素类型为Row的Dataset，即DataFrame只是Dataset[Row]的一个类型别名。

二、简单使用Spark SQL

（一）、准备数据文件

1,郑秀芸,女,20
2,王志峰,男,18
3,陈燕文,女,21
4,郑国栋,男,19
5,肖雨涵,男,20

执行命令：vi student.txt，创建student.txt文件

将student.txt上传到HDFS的/input目录（如果目录不存在，就创建起来）

（二）加载数据为Dataset

启动Spark Shell，执行命令：spark-shell --master spark://master:7077

1、读文件得数据集

调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容，并加载为一个Dataset
执行命令：val ds = spark.read.textFile("hdfs://master:9000/input/student.txt")
从变量ds的类型可以看出，textFile()方法将读取的数据转为了Dataset。除了使用textFile()方法读取文本内容外，还可以使用csv()、jdbc()、json()等方法读取CSV文件、JDBC数据源、JSON文件等数据。(csv: comma separated value)

2、显示数据集内容

执行命令：ds.show()
可以看出，Dataset将文件中的每一行看作一个元素，并且所有元素组成了一列，列名默认为value。

3、显示数据集模式

（三）给数据集添加元数据信息

1、定义学生样例类

定义一个样例类Student，用于存放数据描述信息（Schema）
执行命令：case class Student(id: Int, name: String, gender: String, age: Int)
基于样例类创建对象很简单，不需要new关键字，只需要传入相应参数即可创建对象

2、导入隐式转换

导入SparkSession的隐式转换，以便后续可以使用Dataset的算子
执行命令：import spark.implicits._ （_表示implicits包里所有的类，类似于Java里的*）

3、将数据集转换成学生数据集

调用Dataset的map()算子将每一个元素拆分并存入Student样例对象
执行命令:paste进入粘贴模式，然后执行红框类的命令

 val studentDS = ds.map(line => {val fields = line.split(",")val id = fields(0).toIntval name = fields(1)val gender = fields(2)val age = fields(3).toIntStudent(id, name, gender, age)
})