Apache Hadoop面试题 PDF 下载-Java资源分享网

Apache Hadoop面试题 PDF 下载

发布于：2024-04-16 10:28:49

(假如点击没反应，多刷新两次就OK！)

Apache Hadoop面试题 PDF 下载图1

资料内容：

1. 启动Hadoop集群会分别启动哪些进程,各⾃的作⽤

NameNode：

维护⽂件系统树及整棵树内所有的⽂件和⽬录。这些信息永久保存在本地磁盘的两个⽂件中：命名空间

镜像⽂件、编辑⽇志⽂件

记录每个⽂件中各个块所在的数据节点信息，这些信息在内存中保存，每次启动系统时重建这些信息

负责响应客户端的数据块位置请求。也就是客户端想存数据，应该往哪些节点的哪些块存；客户端想

取数据，应该到哪些节点取

接受记录在数据存取过程中，datanode节点报告过来的故障、损坏信息

SecondaryNameNode(⾮HA模式)：

实现namenode容错的⼀种机制。定期合并编辑⽇志与命名空间镜像，当namenode挂掉时，可通过⼀

定步骤进⾏上顶。(注意并不是NameNode的备⽤节点)

DataNode：

根据需要存取并检索数据块

定期向namenode发送其存储的数据块列表

ResourceManager：

负责Job的调度,将⼀个任务与⼀个NodeManager相匹配。也就是将⼀个MapReduce之类的任务分配给

⼀个从节点的NodeManager来执⾏。

NodeManager：

运⾏ResourceManager分配的任务，同时将任务进度向application master报告

JournalNode(HA下启⽤):

⾼可⽤情况下存放namenode的editlog⽂件

2. Hadoop1.x的缺点

1. JobTracker存在单点故障的隐患

2. 任务调度和资源管理全部是JobTracker来完成,单点负担过重

3. TaskTracker以Map/Reduce数量表示资源太过简单

4. TaskTracker 分Map Slot 和 Reduce Slot, 如果任务只需要map任务可能会造成资源浪费

3. Hadoop1.x 和Hadoop 2.x 的区别

1. 资源调度⽅式的改变

在1.x, 使⽤Jobtracker负责任务调度和资源管理,单点负担过重,在2.x中,新增了yarn作为集群的调度⼯具.在

yarn中,使⽤ResourceManager进⾏资源管理, 单独开启⼀个Container作为ApplicationMaster来进⾏任务管

理.

2. HA模式

在1.x中没有HA模式,集群中只有⼀个NameNode,⽽在2.x中可以启⽤HA模式,存在⼀个Active NameNode 和

Standby NameNode.

3. HDFS FederationHadoop 2.0中对HDFS进⾏了改进，使NameNode可以横向扩展成多个，每个NameNode分管⼀部分⽬录，