Java资源分享网 - 专业的Java学习网站 学Java,上Java资源分享网
Apache Hadoop面试题 PDF 下载
发布于:2024-04-16 10:28:49
(假如点击没反应,多刷新两次就OK!)

Apache Hadoop面试题 PDF 下载  图1

 

 

资料内容:

 

1. 启动Hadoop集群会分别启动哪些进程,各⾃的作⽤
NameNode
维护⽂件系统树及整棵树内所有的⽂件和⽬录。这些信息永久保存在本地磁盘的两个⽂件中:命名空间
镜像⽂件、编辑⽇志⽂件
记录每个⽂件中各个块所在的数据节点信息,这些信息在内存中保存,每次启动系统时重建这些信息
负责响应客户端的 数据块位置请求 。也就是客户端想存数据,应该往哪些节点的哪些块存;客户端想
取数据,应该到哪些节点取
接受记录在数据存取过程中,datanode节点报告过来的故障、损坏信息
SecondaryNameNode(HA模式)
实现namenode容错的⼀种机制。定期合并编辑⽇志与命名空间镜像,当namenode挂掉时,可通过⼀
定步骤进⾏上顶。(注意 并不是NameNode的备⽤节点)
DataNode
根据需要存取并检索数据块
定期向namenode发送其存储的数据块列表
ResourceManager
负责Job的调度,将⼀个任务与⼀个NodeManager相匹配。也就是将⼀个MapReduce之类的任务分配给
⼀个从节点的NodeManager来执⾏。
NodeManager
运⾏ResourceManager分配的任务,同时将任务进度向application master报告
JournalNode(HA下启⽤):
⾼可⽤情况下存放namenodeeditlog⽂件
 
2. Hadoop1.x的缺点
1. JobTracker存在单点故障的隐患
2. 任务调度和资源管理全部是JobTracker来完成,单点负担过重
3. TaskTrackerMap/Reduce数量表示资源太过简单
4. TaskTracker Map Slot Reduce Slot, 如果任务只需要map任务可能会造成资源浪费
 
3. Hadoop1.x Hadoop 2.x 的区别
1. 资源调度⽅式的改变
1.x, 使⽤Jobtracker负责任务调度和资源管理,单点负担过重,2.x,新增了yarn作为集群的调度⼯具.
yarn,使⽤ResourceManager进⾏ 资源管理, 单独开启⼀个Container作为ApplicationMaster来进⾏任务管
.
2. HA模式
1.x中没有HA模式,集群中只有⼀个NameNode,⽽在2.x中可以启⽤HA模式,存在⼀个Active NameNode
Standby NameNode.
3. HDFS FederationHadoop 2.0中对HDFS进⾏了改进,使NameNode可以横向扩展成多个,每个NameNode分管⼀部分⽬录,
进⽽产⽣了HDFS Federation,该机制的引⼊不仅增强了HDFS的扩展性,也使HDFS具备了隔离性