中体彩大数据面试题

时间 2021-06-12 标签大数据

中体彩

【选择题】

1.Spark Job 就认的调度模式()

A.FIFO B.FAIR C.无 D.运行时指定

2.下面哪个不是RDD的特点()

A.时分区 B.可序列化 C可修改 D可持久化

3.关于广播交量，下面哪个是错误的()

A.任何函数调用 B.是只读的 C.存储在各个节点 D.存储在磁盘域HDFS

4.下面哪个操作是窄依赖()

A.join B.filter C.group D.sort

5.spark的master和worker通过什么方式进行通信的？（）

A.http B.nio C.netty D.Akka

6.hive的元数据存储在derby 和MySQL中有什么区别（）

A.没区别 B.多会话 C.支持网络环境 D.数据库的区别

7.下列哪项可以作为集群的管理？（）

A.Puppet B.Pdsh C.Cloudera Manager D Zookceper

8.MapReduce与HBase的关系，哪些描述是正确的？()

A两者不可或缺，MapReduce 是HBase可以正常运行的保证

B两者不是强关联关系，没有MapReduce，HBase可以正常运行

C MapReduce可以直接访问HBase

D它们之间没有任何关系

9.下面与HDFS类似的框架是？（）

A.NTFS B.FAT32 C.GFS D.EXT3

10.LSM含义是？（）

A日志结构合并树 B二叉树 C平衡二又树 D长平衡二叉树

11.关于HBase二级索引的秒速，哪些是正确的？（）

A 核心是倒排表

B 二级索引概念是对应Rowkey这个“一级”索引

（图中少二个选项，自己想下。。。）

12简述HDFS的存储机制

13请说明hive中Sort By，Order By，Cluster By ，Distrbute By 各个代表什么意思？

14你觉得成为一个优秀开发工程师应该具备哪些职业素养？你看过哪些软件开发方面的书籍？

大数据培训