2020年11月工信部考试——Hadoop（数据应用技术）中级认证 1

编程知识更新时间:2023-04-20 13:14:30

数据库

15.MongoDB副本集的描述，不能对备份节点执行写操作。备份节点只通过复制功能写入数据，不接受客
户端的写入请求；MongoDB各个节点常见搭配方式为：一主一从、一主多从；所有写入操作都在主节
点上
191. MongoDB 数据库关于集合的命名规则，下列选项描述正确的是不能是空字符串、不能用 system.
开头、不能包含$
218.MongoDB 被用作分片群集的控制器和查询路由器的组件是 mongos
HBase
4.HBase 的特点有高可靠性、高性能、面向列、可伸缩
12. HBase 数据库关于单元格中时间戳，需要注意的是：每个单元格插入数据时都会用时间戳来进行版本标识；读取单元格数据时，如果时间戳没有指定，则默认返回最新数据；写入新数据时，若时间戳已存在，新数据将无法插入单元格；写数据时，用户是可以指定时间戳的值的。
13. HBase 数据库关于 minor 合并与 major 合并说法，minor 合并是把多个小的 HFile 合并成一个大的 HFile；major 合并针对的是给定 Region 的一个列族的所有 HFile；major 合并时会清理 minor 合并中被标记删除的 HFile；
274. HFile 里标记为删除的数据会在 major compac 时候，被清理。
14. HBase 数据库 Rowkey 设计的原则，可以使用汉字、可以使用字符串、长度不宜过长。
48. HBase 是分布式列式存储系统，记录按列族集中存放。
95.关于 HBase 的特点，伸缩性：表可以很“高”（数十亿个数据行），可以很“宽”（数百万个列）；
自动分区：当表增长时，表会自动分裂成 Region，并分布到可用节点上；线性扩展和对于新节点的自动
处理：增加节点，使它指向RegionServer，Region 自动负载均衡。
196. 关于 HBase 的 Region 的内部结构，每个 Strore 由一个 MemStore 和 0至多个 StoreFile 组成；Region 由一个或者多个 Store 组成；MemStore 存储在内存中，StoreFile 存储在 HDFS；一个 Region 有多少个列族就有多少个 Store
205. HBase 数据模型包括行键、列族、列属性（子列）
224. HBase 对于空（NULL）的列，不需要占用存储空间。
239. HBase 预分 region 能解决数据分布不均匀场景。
275. Hbase 负载均衡最小单位是 region，存储的最小单位是 Hfile
32. 数据库系统的特点是数据共享、数据独立、减少数据冗余、避免数据不一致和加强了数据保护。
76．数据库管理系统能够实现对数据库中的数据进行插入，删除，修改，查询操作的数据库语言称为数据操控语言（DML）
40. 关系数据库规范化是为解决关系数据库中插入、删除和数据冗余问题而引入的。
261. 数据库操作描述的是系统的动态特性，主要分为查询、插入、修改和删除。
25. 内存数据库与其他类型的数据库，最大的区别是数据常驻内存。
38. 在数据库中存储的是数据和数据之间的联系
39. 数据结构是刻画一个数据模型性质最重要的方面。人们通常按它的类型来命名数据模型。
67. 在 SQL 的 Select 语句中，用于对结果的排序的关键字为ORDER BY
78. 在SQL语法中，SELECT语句的完整语法较复杂，但至少包括SELECT, FROM
77. 在 SQL 语法中，用来插入数据的命令是 INSERT
172. SQL 语言中，删除一个表的命令是 DROP
174. 如果希望进行分组统计的查询输出，可以使用 GROUP BY 子句
175. 在标准 SQL 中，建立视图的命令是 CREATE VIEW 命令
176. 查询表 EMP 中不同 DEPTNO 的 SAL 字段的分类合计值的 SQL 语句是SELECT DEPTNO,SUM(SAL) FROM EMP GROUP BY DEPTNO
177. SQL 语句中修改表结构的命令是 ALTER TABLE
248. 在 SQL 语法中，关键字 WHERE 用于条件筛选。
79．SQL 语言包括数据定义操作(DDL)、数据操纵操作(DML)等，CREATE 关键字属于数据定义操作
68.关系数据库用二维表来表示实体之间的联系。
69.具有数据冗余度小，数据共享以及较高数据独立性等特征的系统是数据库系统。
80．数据库中的缩写 DBMS 是指数据库管理系统，DBMS 是位于用户和操作系统之间的数据管理软件。
226. 数据库管理员的英文缩写是 DBA
173、只有满足联接条件的记录才包含在查询结果中，这种联接为内部联接
186. 数据库管理员希望对数据库进行性能优化，行之有效的方法为将数据库的数据库文件和日志文件分别放在不同的分区上；在数据库服务器上尽量不要安装其他无关服务
187. 在关系数据库中存在的完整性规则有实体完整性规则、引用完整性规则、用户定义的完整性规则
188.关系数据库中使用主键可以唯一地标识表中的一行数据；在一个表中主键列的值是唯一的
227. 在数据库中主码（主键）所包含的属性一定是主属性
214.Neo4j 图形数据库最适合应用在社会交际数据管理
223. 数据库关系模型的数据结构可以细化为：关系——元组——属性。
262. 数据模型通常由数据结构、数据操作和完整性约束三个要素构成。
279. 所使用的数据模型来分，数据库可分为层次、关系和网状三种类型。
51. 客户端首次查询 HBase 数据库时，首先需要从–ROOT-表开始查找。
110. HBase 依靠 HDFS 存储底层数据
111. HBase 依赖 Zookeeper 提供消息通信机制
112. HBase 依赖 MapReduce 提供强大的计算能力
210. HBase 性能优化包含读优化、写优化、配置优化、JVM 优化
3. NoSQL 数据库典型产品有 HBase、MongoDB、Redis 等
41. 事务使数据库“从一个一致状态转变到另一个一致状态”的性质称为事务的一致性。
178. 关系数据库中，主键是为标识表中唯一的实体
202. 关系数据模型可以表示实体间的 1 对 1 联系、可以表示实体间的 1 对多联系、可以表示实体间的多对多联系
278. 实体之间的联系可抽象为三类它们是 1：1，1：m 和 m：n

java

26.关于异常(Exception)，异常的基类为 Exception，所有异常都必须直接或者间接继承它；异常可以用 try{ . . .}catch(Exception e){ . . .}来捕获并进行处理；如果某异常继承 RuntimeException，则该异常可以不被声明。
211.在嵌套循环中，要中止整个循环，应使用 return 语句
216.Java 语言规定，任何一个子类的构造方法都必须调用其父类的构造方法包括隐式调用），并且调用父类构造方法的语句必须是子类构造方法的第一条语句。
233. 构造器 Constructor 不能被继承，因此不能重写 Override，但可以被重载 Overload。
244.在 Java 程序中，通过类的定义只能实现单重继承，但通过接口的定义可以实现多重继承关系。
249. Java 语言中，有一个类是所有类或接口的父类，这个类的名称是 Object 。
254. 面向对象的特征封装、继承和多态。
255. List 和 Set 类的都是继承自 Collection 接口。
17.java 中关于 sleep()和 wait()， sleep 是线程类（Thread）的方法，wait 是 Object 类的方法；sleep 不释放对象锁，wait 放弃对象锁；sleep 暂停线程、但监控状态仍然保持，结束后会自动恢复；
219.无论是否发生异常，finally 块中的程序都会执行,一般是用来关闭已打开的对象或释放内存资源。
58. 能单独和 finally 语句一起使用的块是 try
5.编译 JavaApplication 源程序文件将产生相应的字节码文件，这些字节码文件的扩展名为.class
6.设 x=1,y=2,z=3，则表达式 y＋＝z－－/＋＋x 的值是 3
16. 2name、last_name、$name、_name，其中 2name 不能作为 java 变量名使用
18.关于 java，类是对象的抽象，对象是类的实例； java 语言不支持多继承；类是组成 java 程序的最小单位；一个 java 程序文件中，最多只能有一个 public类。
42. 关于 Java 语言，如果源代码中有 package 语句，则该语句必须放在代码的第一行
43. 一个 *.java 文件中可以包含最多 1 个 public 类
56. Java 中 main()函数的返回值是 void
57. Java 程序的并发机制是多线程
81. Java 中，如果类 C 是类 B 的子类，类 B 是类 A 的子类，则 C 不仅继承了 A中的成员，而且继承了 B 中的成员
82．作为 Java 应用程序入口的 main 方法，其声明是 public static void main(String[] args)
192. Java 语言中的基本数据类型有 byte、char、long
228. Java 语言的标识符是区分大小写
241. 设 x = 2 ，则表达式 ( x + + )／3 的值是 0
242. Java 中，创建一个名为 MyPackage 的包的语句是 package MyPackage ; ，该语句应该放在程序的位置为：应该在程序第一句。
243. 设有数组定义：int MyIntArray[ ] = { 10 , 20 , 30 , 40 , 50 , 60 , 70}; 则执行以下几个语句后的输出结果是 120 。
int s = 0 ;
for (int i = 0 ; i < MyIntArray.length ; i + + ) if ( i % 2 = = 1 )
s += MyIntArray[i] ;
System.out.println(s);

Hadoop

184.Hadoop 的 Client 端上传文件的时候，Client 端将文件以 Block 为单位，管道方式依次传到 DataNode；当某个 DataNode 失败，客户端会继续传给其它 DataNode
22.与 Hadoop 1.x 相比，Hadoop 2.x 采用全新的架构，最明显的变化就是增加了 Yarn 组件
44. 磁盘通常是 Hadoop 集群的最主要的性能瓶颈
53. Hadoop 的 Client 端上传文件的时候，Client 端将文件切分为 Block，依次上传
70. Hadoop 设置免密码登录时，使用的协议是 SSH
83．适合使用 Hadoop 技术处理的场景是大数据离线分析
84. Hadoop 核心组件不包括 GFS
179. Hadoop 运行的模式有单机版、伪分布式、完全分布式
203. 大数据技术面对的基本问题，也是最核心的问题包括海量数据如何可靠存储、海量数据如何高效计算
237. Hadoop 默认调度器策略为 FIFO
277. 完全分布式Apache Hadoop的核心配置文件有core-site.xml, hdfs-site.xml, mapred-site.xml。
HDFS
7.HDFS 架构的组成部分有 NameNode、DataNode、SecondaryNameNode
85. HDFS 中最重要的组成之一NameNode，其职责为接收客户端的请求；管理 DataNode 上的数据块，管理DataNode上文件Block 的负载均衡，维持副本数量；管理和维护 HDFS 的命名空间（Namespace）
250. HDFS 中数据节点 DataNode 的职责包括：存储数据块，负责客户端对数据块的 IO 请求，定时
向 NameNode 进行心跳通信。
33.Datanode 负责 HDFS 数据存储。
45.SecondaryNameNode 目的是帮助 NameNode 合并编辑日志，减少NameNode 启动时间
46.一个 gzip 文件大小 75MB，客户端设置 Block 大小为 64MB，其占用 2 个Block？
86.关于HDFS名称节点维护的edits文件和fsimage文件的描述，fsimage文件体现了HDFS最新状态
87.HDFS 上的文件对应的数据块保存有多个副本，且提供容错机制，副本丢失或宕机时自动恢复。HDFS 默认保存 3 份副本，第一个副本放置在上传文件的数据节点；第二个副本放置在与第一个副本不同的机架的节点上；第一个副本如果是在集群外提交，则随机挑选一台磁盘不太满、CPU 不太忙的节点。
88.通过终端命令行上传文件到 HDFS，使用的命令是 put
89.关于 HDFS 配额的描述，HDFS 可以设置名称配额，限制目录下文件数量；HDFS 可以设置空间配额，限制目录下文件总大小；可以通过 hdfs dfs -count -q 查看配额信息。
197.从存储位置上，Hive 与 HDFS 进行比较，下面说法正确的是 Hive 的表保存到 HDFS 上是一个目录、Hive 的分区保存到 HDFS 上是一个目录、Hive 的数据保存到 HDFS 上是一个文件
204.访问 HDFS 的方式有包括通过 Web Console 访问、通过Shell 命令访问、通过 Jave API 访问
212.在 HDFS HA 集群中，一个 NameNode 处于活跃状态，另一个处于备用状态
245.Hadoop 中，reduce 的输出通常存储在 HDFS 中以实现可靠存储
246.HA 产生的背景是：为了解决单 NN 可能出现宕机导致集群不可用或数据丢失的问题。
34.HDFS 中的 block 默认保存 3 个备份。
54.HDFS 默认 Block Size 大小是 64MB。
94.HDFS 中数据库副本的默认备份数是 3 个

MapReduce

50.MapReduce 编程模型，键值对 <key, value> 的 key 必须实现WritableComparable 接口
91. MapReduce 易于编程、良好的扩展性、高容错性，但不擅长对海量数据进行在线处理
92. MapReduce 所有的输入和输出的数据类型必须是 hadoop 的数据类型，比如 LongWritable、NullWritable、Text
93. MapReduce 中分区数量由分区决定
209. MapReduce 与 HBase 的关系，两者不是强关联关系，没有 MapReduce，HBase 可以正常运行、MapReduce 可以直接访问 HBase
220. MapReduce 计算过程中，相同的 key 默认会被发送到同一个 reduce task处理。
251. MapReduce 的基本设计思想是分而治之。
252. 使用 MapReduce 编程，用户只需要编写 map() 和 reduce() 两个函数。

Sqoop和Flume

276.Sqoop 主要用于在 hadoop 和传统关系型数据库之间进行传输数据。
20.Sqoop 的底层实现是 MapReduce
97. 使用 Sqoop 从 hdfs 中导数据到关系数据库中的命令是 export
195.关于 Flume 与 Sqoop 的描述，Flume 用于实时采集日志，一般用于实时计算；Sqoop 主要采集关系型数据库中数据,用于离线计算批量处理；Sqoop脚本最终会变成提交到YARN上的一个个map任务
238. Flume 有客户端和服务端
21.Agent是 Flume 的核心。一个 Agent 中可以包含多个 Source、Channel 和 Sink；1：n，1：1
270. 管道就是将前一个命令的标准输出作为后一个命令的标准输入。
Zookeeper
27.Zookeeper 服务端默认的对外服务端口是 2181
※28.关于 ZooKeeper 的说法，ZooKeeper 是一个高可用的分布式数据管理和协调框架；能够很好的保证分布式环境中数据的一致性；越来越多的分布式系统（Hadoop、HBase、Kafka）中使用 ZooKeeper。
215.ZooKeeper 的 close 命令会关闭当前连接，可用 connect 再次连接，不会退出客户端
171. Chubby 是与 Zookeeper 类似的框架
231. Zookeeper 应用场景包括分布式通知/协调、负载均衡、配置中心、分布式锁、分布式队列等
198. ZooKeeper 应用场景有 Master 选举、分布式锁、分布式协调/通知
Hive
49. 设计分布式数据仓库 hive 的数据表时，为取样更高效，一般可以对表中的连续字段进行分桶操作。
96. Hive 数据模型包括内部表（托管表）、外部表、桶表
109. Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文本映射为一张数据库表，并提供简单的 SQL 查询功能
229. Hive 可以将 sql 语句转换为 MapReduce 任务进行运行
YARN
90. YARN 的组成包括 ResourceManager 、 NodeManager 、ApplicationMaster
221.在 YARN 之上可以部署 Spark

Ambari

232.Ambari 是完全开源的、Hadoop 生态的集群部署、管理、监控的工具，旨在简化 Hadoop 的管理和使用
253. Ambari 的功能包括对 Hadoop 集群部署，监控，管理。

hadoop琐碎

47.Jobtracker 通常与 NameNode 在一个节点启动
52. 在实验集群的master节点使用 jps命令查看进程时，终端出现Namenode,JobTracker, secondaryNameNode 说明 Hadoop 主节点启动成功
102.若一台计算机的内存为 128MB，则交换分区的大小通常是 256MB
108.关于 input split 和 block，input split 是一种记录的逻辑划分,而 block 是对输入数据的物理分割,两者之间有着本质的区别
185. 配置机架感知，如果一个机架出问题，不会影响数据读写；写入数据的时候会写到不同机架的 DataNode 中；MapReduce 会根据机架获取离自己比较近的网络数据
230. Pig 是一种探索大规模数据集的脚本语言

计算机网络

8.计算机网络是计算机技术和通信技术相结合的产物
59. 在 Internet 上浏览时，浏览器和 WWW 服务器之间传输网页使用的协议是HTTP
60.在计算机网络中，一般局域网的数据传输速率要比广域网的数据传输速率高
61. TCP/IP 体系结构中的 TCP 和 IP 所提供的服务分别为运输层服务和网络层服务
62. 在 Internet/Intranet 中，不需要为用户设置帐号和口令的服务是 DNS
64. 使用 ping 命令检测基本网络连接
103.当我们与某远程网络连接不上时，就需要跟踪路由查看，以便了解在网络的什么位置出现了问题，满足该目的的命令是 traceroute
104. WWW 服务器是在 Internet 上使用最为广泛，它采用的是 B/S 结构
199. 在 WWW 中，使用统一资源定位器 URL 来唯一地标识和定位因特网中的资源，它由协议、主机地址（域名）、文件路径名组成
240. source/channel/sink 的 type 不同时，相应的其他配置参数也不同。
266. DHCP(动态主机配置协议) 可以实现动态 IP 地址分配。
268. 进行远程登录的命令是 telnet 。
271.在使用手工的方法配置网络时，可通过修改 /etc/HOSTNAME 文件来改变主机名，若要配置该计算机的域名解析客户端，需配置 /etc/resolv.conf 文件。
269. 当 LAN 内没有条件建立 DNS 服务器，但又想让局域网内的用户可以使用计算机名互相访问时，应配置 /etc/hosts 文件。
101.下列文件中，包含了主机名到 IP 地址的映射关系的文件是/etc/hosts
100. 建立动态路由需要用到的文件有/etc/gateways
Linux
23.Linux 中使用 mount 进行设备或者文件系统挂载的时候，需要用到的设备名称所在的目录是/dev
24.Linux 中用来定义 shell 全局变量的命令是 export
63. tar -xzvf filename.tgz 命令解压缩 tar 文件
66. pwd 命令功能是显示当前目录的绝对路径
74. 以下那个命令可以删除目录 rm -r
213.Linux 系统中若要删除一个非空目录，需要在 rm 命令后添加参数 rf
75. Linux 系统中查看运行的进程，可以使用 ps 命令
222. 确定当前目录使用的命令为：pwd
105. 在重新启动 Linux 系统的同时把内存中的信息写入硬盘，应使用#shutdown –r now 命令实现
180. Linux 的正常关机命令可以是 shutdown -h now、halt
182. Linux 系统必须至少要创建哪些分区：根分区(/) 、交换(swap)分区
183. 假设用户当前目录是：/home/xu，现需要返回到用户主目录，则哪些命令可实现这一目的：cd $HOME、cd、cd ~
189.在 Linux 中，具有相当丰富使用的联机帮助功能。用户通常可通过 man 命令、info 命令、命令 --help 来获取操作命令的使用方法或参数选项内容。
193.下列哪些符号是 Linux 中的通配符 *、？
194.下面能让线程停止执行的有 sleep(); 、stop(); 、synchronized();、yield(); 、wait();
225. Linux 系统中可以在/etc/profile文件中添加环境变量PATH，修改完需要执行source命令才会生效
235. find 命令中可以复制查找到的文件到指定目录。
256. vi 编辑器具有两种工作模式：命令模式和输入模式
260. mv 命令可以移动文件和目录,还可以为文件和目录重新命名.
265. 编写的 Shell 程序运行前必须赋予该脚本文件执行权限。
267. 为脚本程序指定执行权的命令及参数是 chmod a+x filename 。
272. 增加一个用户的命令是：adduser 或 useradd 。
273. 进行字符串查找，使用 grep 命令。
190.下面哪些命令可以查看 Linux 系统中的文件内容 vi、cat、more、tail
207. 在下列命令中,能显示文本文件内容的命令有 more、less、tail
236. cat filename.txt | more 可实现分页地查看一个大文件的内容。
1.Linux 中默认情况下管理员创建了一个用户，将在/home 目录下创建这个用户主目录。
2. Linux 中列出一个目录下的所有文件： ls -a ，列出一个目录下文件的详细信息： ls -l
9.Linux 中将普通用户转成超级用户的命令是 su
10.Linux 中在 vi 编辑器编辑模式里，命令"dd"用来删除当前的行
11.在 Red Hat Linux9 中，查看网络接口的状态使用的命令是 ifconfig
29. 在Ubuntu Linux中，系统默认的root用户对整个系统拥有完全的控制权。
30. 除非特别指定，cp 要拷贝的文件在当前目录下
31. kill all 命令可以终止一个用户的所有进程
55. 若要使用进程名来结束进程，应使用 kill 命令。
200. 在 Linux 系统中，可以使用 Ctrl + C、kill 终止进程
259. 前台起动的进程使用 Ctrl c 终止
35. 以长格式列目录时，若 test 的权限描述为：drwxrw-r–，则其类型及文件主的权限是目录文件、读
写执行。
36.Linux 从后台启动进程，应在命令的结尾加上符号&
257. 命令结尾加 & 符号可以在后台运行。
65. 在 vi 中退出不保存的命令是:q!
71. 在 Ubuntu Linux 中，系统默认的 root 用户对整个系统拥有完全的控制权
99. Linux 文件权限一共 10 位长度，分成四段，第三段表示的内容是文件所有者所在组的权限
181.Linux 的每类用户拥有三种权限，分别是 r、w、x。
201. Linux 中某文件的属性为：drw-r–r--，该文件是一个目录、该文件所有用户都可以读取、该文件只
有所有者可以修改
264. 某文件权限为：d-rw-_r–_r–，用数值形式表示该权限，则该八进制数为：644，该文件属性是目录。
208. 如用 ls -l 命令列出文件，文件的第一个字段是-rwxr-x—，第三个字段是stu, 第四个字段是 sgroup
那么 stu 用户可以执行这个文件、sgroup 中的用户可以执行这个文件
221. Linux 的特点之一是它是一种开放、免费的操作系统。
234. Linux 中的超级用户为 root,登陆时需要口令。
247. Linux 系统中切换当前路径使用 cd 命令。
258. 用自动补全功能时，输入命令名或文件名的前 1 个或几个字母后按【Tab】键