大数据面试题一

时间 2021-01-09 标签大数据面试题

第1题:spark代码运行流程：

第二题:HDFS 文件写入过程：

第三题:shuffle的sort，partition，group：

第四题：zookeeper选举机制和集群的搭建：

第五题:sparkStreaming在实时处理会发生什么故障如何解决：

第六题：大数据离线遇到什么问题怎么处理的：

1.除了MySQL和oracle，在线数据库还有其他选择吗？实际上，目前，首选通常是Oracle或mysql。实际上，可以根据情况完全选择它。 MySQL和Oracle是传统的关系数据库。当前，有许多NoSQL数据库，例如HBase，这是一个重要的代表。如果数据以强烈的离散方式分布并根据特定的密钥进行查询，则HBase是一个不错的选择

2.分析的结果数据非常大，不能在线请求结果数据。怎么了？通常，结果数据不是很大，即成千上万的数据。在此数据级别上，对数据库（例如mysql）没有压力。但是，如果数据量增加到数千万或数十亿个级别，并且存在复杂的SQL查询，那么MySQL现在肯定无法进行。此时，您可能需要构建索引（例如，将索引添加到要通过Lucene检索的字段），或使用分布式内存服务器来完成查询。一言以蔽之，有两种思维方式：一种是使用文件索引的形式，这是时间的空间。另一种是使用内存，即使用更快的存储来拒绝请求

第8题:

一.什么是yarn
YARN 是一个资源管理、任务调度的框架，主要包含三大模块：ResourceManager（RM）、 NodeManager（NM）、ApplicationMaster（AM）。 ResourceManager 负责所有资源的监控、分配和管理； ApplicationMaster 负责每一个具体应用程序的调度和协调； NodeManager 负责每一个节点的维护。对于所有的 applications，RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源，同时和 NodeManager 通信来执行和监控 task。

第9题:

第10题:

看文件有多少行wc -l

第11题: