admin管理员组

文章数量:1596328

文章目录

  • 环境搭建
  • 基本概念
  • 任务执行框架
  • spark-shell
  • spark-conf
  • RDD
    • IO
    • transform
    • BroadCast Variables
  • Spark SQL
    • 聚合
    • join
    • dataset or dataframe
    • 外部数据库
  • ML
  • 优化
  • Spark UI
  • 其他
  • pySpark
  • 框架
    • 调度
    • 内存
  • YARN
  • 异常解决

环境搭建

在Hadoop集群的基础上搭建Spark
Spark记录-spark-env.sh配置

env里要写JAVA_HOME哦!

spark+hadoop配置

Spark和hadoop是怎么连起来的,就全靠SPARK_DIST_CLASSPATH这个参数连起来的,一旦这个参数确定了,并且hadoop配置正常,那么Spark默认读取hdfs上的文件,并且如果没有启动hdfs,spark-shell的一些操作也有可能报错,即使读的是本地的文件= =
如果没有指定该参数,那么默认读取本地文件
所以说如果仅仅学spark,那就老老实实的单个spark,不用配hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/,指定hadoop依赖包,可以少个warn

Spark部分:几个重要的端口汇总

基本概念

从源码角度看Spark on yarn client & cluster模式的本质区别
SparkContext、SparkConf和SparkSession之间的联系及其初始化
sparkSession需要定义在sparkcontext之后

任务执行框架

spark task、job、partition之间的关系 宽窄依赖 spark任务调度
Spark中Task,Partition,RDD的关系
Spark中 sortByKey被划分到transformation中,却有action操作原因
Spark Shuffle 详解
理解spark中的job、stage、task
reduce分job,shuffle分task,task之间并行
Transformations

Task not serializable: java.io.NotSerializableException when calling function outside closure only on classes not objects
Serialization Exception on spark

spark-shell

spark-shell 参数

spark-conf

spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别

RDD

RDD
在RDD的设计中,数据只读,不可修改,如果需要修改数据,必须从父RDD转换到子RDD,

Spark 创建RDD、DataFrame各种情况的默认分区数

本文标签: 发现Spark