早课10.15"/>
早课10.15
1.谈谈如何理解shuffle
可以理解为洗牌,就是将各个节点上的数据进行重新分配的过程
2.简述 mr提交到yarn的工作流程
1阶段:client向RM提交作业,2阶段:RM处理用户请求,分配资源
3.yarn哪两个进程
ResourceManager 和 NodeManager
4.yarn的资源调优参数,是否会配置?
包括hadoop-env.sh ,yarn-env.sh等
5.谈谈你对jps命令 pid生成在哪个目录
jps是显示当前所有java进程pid的命令,/tmp/hsperfdata_{userName}/
6.谈谈你们对pid的理解
/tmp目录下的pid文件用于储存进程的pid号,如果非正常删除不会对进程的运行有影响,单在重启进程时会造成进程混乱,所以最好不要配置在/tmp目录下
7.hdfs读流程是output吗
不是,读流程使用的java对象是FSDataInputStream
8.一个文件160M,64M的块大小,三个副本,请问块多少,实际存储多少
9个块,实际存储480M
9.pid文件人为删除,会影响服务正常运行吗?那么会影响什么?
不会,但影响关闭和重启
10.hdfs dfs等价于什么命令
hadoop fs
11.默认的hdfs,yarnweb的端口号多少
50070 8088
12.假如让你们修改默认的端口号,你们想想会不会去官网网站的默认配置文件找呢???
去到官网,点击documentation,在左侧栏目的最下端有各组件的默认配置文件,从里面找相关的参数修改
13.hdfs和yarn进程的内存大小 在哪个文件配置
4G 和 3G,hadoop-env.sh和yarn-env.sh
14.谈谈什么是数据本地化
DN和NM在同一个物理节点上,最近距离
15.假如NN节点进入安全模式,你们应该觉得怎么做
hdfsadmin leave,如果不成功就去看日志
16.副本放置策略,假如提交的DN节点,那么第一个副本存哪里
就在提交的DN上
17.hadoop家目录里,怎样找到example jar包
find ./ -name’examples.jar’
18.你们觉得 命令帮助怎么看?
先看usage,再看参数
更多推荐
早课10.15
发布评论