大数据面试题一

第1题:spark代码运行流程:

第二题:HDFS 文件写入过程:

第三题:shuffle的sort,partition,group:

 

第四题:zookeeper选举机制和集群的搭建:

第五题:sparkStreaming在实时处理会发生什么故障如何解决:

第六题:大数据离线遇到什么问题怎么处理的:

    1.除了MySQL和oracle,在线数据库还有其他选择吗? 实际上,目前,首选通常是Oracle或mysql。 实际上,可以根据情况完全选择它。 MySQL和Oracle是传统的关系数据库。 当前,有许多NoSQL数据库,例如HBase,这是一个重要的代表。                                            如果数据以强烈的离散方式分布并根据特定的密钥进行查询,则HBase是一个不错的选择

    2.分析的结果数据非常大,不能在线请求结果数据。 怎么了? 通常,结果数据不是很大,即成千上万的数据。 在此数据级别上,对数据库(例如mysql)没有压力。 但是,如果数据量增加到数千万或数十亿个级别,并且存在复杂的SQL查询,那么MySQL现在肯定无法进行。 此时,您可能需要构建索引(例如,将索引添加到要通过Lucene检索的字段),或使用分布式内存服务器来完成查询。 一言以蔽之,有两种思维方式:一种是使用文件索引的形式,这是时间的空间。 另一种是使用内存,即使用更快的存储来拒绝请求

第8题:

    一.什么是yarn
YARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、 NodeManager(NM)、ApplicationMaster(AM)。 ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调; NodeManager 负责每一个节点的维护。 对于所有的 applications,RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源,同时和 NodeManager 通信来执行和监控 task。

第9题:

第10题:

    看文件有多少行wc -l 

第11题: