关于parkSQL读取Parquet数据源之合并元数据schema

编程入门 行业动态 更新时间:2024-10-25 04:16:32

【问题】

-在读取小量数据时,会加载出最新的一个新加的列的数据,没有的值,为null,但是当加载的数据量偏大的时候,会出现加载字段不全的情况,没有达到预期
【原因】

从Spark 1.5.0版本开始,默认是关闭Parquet文件的自动合并元数据的特性的当数据量过大,sparksql,出于性能的考虑,没有合并字段的信息,也就是schema,造成了字段不全的问题
【解决办法】

read 数据源 的时候,增加参数:
var df = sparkSession.read.option(“mergeSchema”, “true”).parquet(existsNewUserPaths2:_*)
参考博客:
blog.csdn.net/qq_43147136/article/details/83053794

===================================
spark sql 读取多个hdfs的路径的方法:
1.new一个类型为String 的数组
2.将路径加入到数组中
3.读取数组中的路径:read .read.option(“mergeSchema”, “true”).parquet(存放路径的数组:_*)
会加载所以的路径为一个datafream,合并schema信息,便于统一处理计算

更多推荐

数据源,数据,parkSQL,Parquet,schema

本文发布于:2023-05-25 10:41:56,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/226454.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:数据源   数据   parkSQL   Parquet   schema

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!