顺丰大数据岗位相关面试题

顺丰面试题

 

 

学长1

第一面是做实时推荐同事,针对项目和知识点来问,特别喜欢问Spark,因为他用Kafka和Spark多,认真准备一下这关好过。

第二面是大数据这块的女总监,光跟你怼Spark,全是细节,细致到你传了那些参数

学长2

1)技术部分

(1)Kafka原理,数据怎么平分到消费者

(2)Flume HDFS Sink小文件处理

(3)Flink与Spark Streaming的差异,具体效果

(4)Spark背压机制具体原理实现

(5)Spark执行内存如何分配,执行任务时给多大内存

(6)SparkSQL做了哪些功能

(7)讲一下Flink

(8)状态编程有哪些应用

(9)端到端exactly-once如何保证

(10)Flink checkpoint机制

(11)Yarn调度策略

2)项目部分

(1)离线指标、数据量、用户量

(2)介绍一下实施项目,哪些指标,怎么算的

(3)SparkStreaming遇到什么问题,如何解决

(4)SparkStreaming实现什么指标,怎么算的

(5)实时当天日活怎么累加

(6)集群规模

(7)一天的指标会用SparkSQL吗

(8)Spark手动设置偏移量,如果数据处理完后,offset提交失败,造成重复计算怎么办

(9)项目中ES做了哪些工作、ES实现原理、ES倒排索引怎么生成

(10)任务调度

(11)讲一下HBase、项目中哪些地方用了HBase、HBase写入流程、不同列族之间文件怎么划分

(12)Kerberos安全认证过程

学长3

(1)问一下,数仓建模有没有更详细的文档说明?

(2)还有HBase的rowkey在生产环境下怎么设计?HBase三个原则:唯一性、长度原则、散列原则

(3)HBase表做预分区,评估半年到一年的数据量

(4)一年之内不能自动切分 (10g数据)

(5)求出分区数量

(6)最后再设计自己的分区键值 01| 02| 03|

(7)rowkey前缀(分区号) 01_ 02_ 03_

(8)后面拼接常用字段 或者 时间戳

(9)在一个分区内 先查询什么字段,就要把那个字段拼接到前面 分区号_要查询的字段_时间戳(保证唯一性)

大数据培训