Spark不会从s3读取/写入信息（ResponseCode = 400，ResponseMessage = Bad Request）

编程入门行业动态更新时间:2024-10-17 18:16:49

本文介绍了Spark不会从s3读取/写入信息（ResponseCode = 400，ResponseMessage = Bad Request）的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！问题描述

我实现了spark应用程序。我创建了spark上下文： pre $ private私有JavaSparkContext createJavaSparkContext（）{ SparkConf conf = new SparkConf （）; conf.setAppName（test）; if（conf.get（spark.master，null）== null）{ conf.setMaster（local [4]）; } conf.set（fs.s3a.awsAccessKeyId，getCredentialConfig（）。getS3Key（））; conf.set（fs.s3a.awsSecretAccessKey，getCredentialConfig（）。getS3Secret（））; conf.set（fs.s3a.endpoint，getCredentialConfig（）。getS3Endpoint（））; 返回新的JavaSparkContext（conf）; }

我试图通过spark数据集API（Spark SQL）：

String s =s3a：//+ getCredentialConfig（）。getS3Bucket（）; 数据集<行> （） .csv（s +/dataset.csv）; System.out.println（Read size：+ csv.count（））;

出现错误：

线程main中的异常com.amazonaws.services.s3.model.AmazonS3Exception：状态码：400，AWS服务：Amazon S3，AWS请求ID：1A3E8CBD4959289D，AWS错误代码：null，AWS错误消息：错误请求，S3扩展请求ID：Q1Fv8sNvcSOWGbhJSu2d3Nfgow00388IpXiiHNKHz8vI / zysC8V8 / YyQ1ILVsM2gWQIyTy1miJc =

Hadoop版本：2.7

AWS端点：s3.eu-central-1.amazonaws

（关于hadoop 2.8 - 全部工作正常）

解决方案

问题是：法兰克福不支持s3n。需要使用s3a。此地区拥有V4 auth版本。 http：//docs.aws.amazon。 com / general / latest / gr / rande.html＃s3_region

欧盟（法兰克福）eu-central-1仅限版本4

这意味着需要在aws客户端上启用它。需要添加系统属性 $ b com.amazonaws.services.s3.enableV4 - > true

conf.set（com.amazonaws.services.s3.enableV4，true）; //不适用于我
在我用过的本地机器上：
System.setProperty（com.amazonaws.services.s3.enableV4，true）;
为了在AWS EMR上运行，需要在spark-submit中添加params：
spark.executor.extraJavaOptions = -Dcom.amazonaws.services.s3.enableV4 = true spark.driver.extraJavaOptions = -Dcom.amazonaws。 services.s3.enableV4 = true
另外，您应该为文件系统添加类实现：
conf.set（spark.hadoop.fs.s3a.impl，org.apache.hadoop.fs.s3a.S3AFileSystem.class。的getName（））; conf.set（spark.hadoop.fs.hdfs.impl，org.apache.hadoop.hdfs.DistributedFileSystem.class.getName（））; conf.set（spark.hadoop.fs.file.impl，org.apache.hadoop.fs.LocalFileSystem.class.getName（））;

I implemented spark application. I've created spark context:
private JavaSparkContext createJavaSparkContext() { SparkConf conf = new SparkConf(); conf.setAppName("test"); if (conf.get("spark.master", null) == null) { conf.setMaster("local[4]"); } conf.set("fs.s3a.awsAccessKeyId", getCredentialConfig().getS3Key()); conf.set("fs.s3a.awsSecretAccessKey", getCredentialConfig().getS3Secret()); conf.set("fs.s3a.endpoint", getCredentialConfig().getS3Endpoint()); return new JavaSparkContext(conf); }
And I try to get data from s3 via spark dataset API (Spark SQL):
String s = "s3a://" + getCredentialConfig().getS3Bucket(); Dataset<Row> csv = getSparkSession() .read() .option("header", "true") .csv(s + "/dataset.csv"); System.out.println("Read size :" + csv.count());
There is an error:
Exception in thread "main" com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: 1A3E8CBD4959289D, AWS Error Code: null, AWS Error Message: Bad Request, S3 Extended Request ID: Q1Fv8sNvcSOWGbhJSu2d3Nfgow00388IpXiiHNKHz8vI/zysC8V8/YyQ1ILVsM2gWQIyTy1miJc=
Hadoop version: 2.7

AWS endpoint: s3.eu-central-1.amazonaws

(On hadoop 2.8 - all works fine)
解决方案
The problem is: Frankfurt doesn't support s3n. Need to use s3a. And this region has V4 auth version. docs.aws.amazon/general/latest/gr/rande.html#s3_region

EU (Frankfurt) eu-central-1 Version 4 only

It mean's need to enable it on aws client. Need to add system property

com.amazonaws.services.s3.enableV4 -> true
conf.set("com.amazonaws.services.s3.enableV4", "true");//doesn't work for me
On local machine I've used:
System.setProperty("com.amazonaws.services.s3.enableV4", "true");
For running on AWS EMR need to add params to spark-submit:
spark.executor.extraJavaOptions=-Dcom.amazonaws.services.s3.enableV4=true spark.driver.extraJavaOptions=-Dcom.amazonaws.services.s3.enableV4=true
Additionally you should add class implementation for file systems:
conf.set("spark.hadoop.fs.s3a.impl", org.apache.hadoop.fs.s3a.S3AFileSystem.class.getName()); conf.set("spark.hadoop.fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName()); conf.set("spark.hadoop.fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());

更多推荐

Spark不会从s3读取/写入信息（ResponseCode = 400,ResponseMessage = Bad Request）

本文发布于:2023-11-24 04:48:51，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1624031.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

信息 ResponseCode Spark Bad Request

上一篇：可以使用s3 java sdk通过流写入s3吗？

下一篇： collecstatic不会推送到文件S3

发布评论取消回复

评论列表（有 0 条评论）

最近发表

荆门网站建设的重要性

win10蓝屏终止代码CRITICAL_PROCESS_DIED解决方法

您可以尝试添加 --skip-broken 选项来解决该问题您可以尝试执行：rpm -Va --nofiles --nodigest 解决方案

关于无线网络波动大的解决办法

Windows10 关于系统中断CPU占用过高导致电脑变卡的解决办法

VS 2019 点击页面自动定位到解决方案资源管理器目录位置

（亲测解决）VMware打开需要半天才进入、打开系统很慢、运行很慢解决办法

Typora官网下载的最新版本mac10.13以下版本用不了的解决办法

成功解决ModuleNotFoundError: No module named ‘torch._C‘

MySQL:由于找不到VCRUNTIME140_1.dll，无法继续执行代码。重新安装程序可能会解决此问题

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍！

热门文章

从源“http://localhost:5173”访问“...”处的 XMLHttpRequest 已被 CORS 策略阻止

币安API错误代码1102，未发送强制参数“时间戳”

如果我在bot telegram nodejs中使用editMessageMedia，我如何制作标题

在 Node.js 中从网络流创建 blob

使用 Node.js / ES6 如何设置 dotenv 文件的自定义路径？

使用 NODE.JS 和 html5 实现低延迟（50 毫秒）视频流

如何从nodejs连接laravel>laravel

使用nodejs观看目录

如果文件包含特定字符串，如何跳过 GitHub 工作流程步骤？

FirebaseError：无法从.env加载环境变量

标签列表

文件

如何在

Python

系统

java

方法

数据

错误

windows

函数

android

linux

教程

如何使用

代码

字符串

计算机

电脑

服务器

NET

应用程序

数组

PHP

MySQL

SQL

对象

项目

程序

数据库

word