java1234

电脑版
提示:原网页已由神马搜索转码, 内容由www.java1234.com提供.

Apache Hadoop面试题 PDF 下载


时间:2024-04-16 10:29来源:http://www.java1234.com 作者:转载  侵权举报
Apache Hadoop面试题
Apache Hadoop面试题 PDF 下载  
 
 
 
相关截图:
 


主要内容:

1. 启动Hadoop集群会分别启动哪些进程,各⾃的作⽤
NameNode
维护⽂件系统树及整棵树内所有的⽂件和⽬录。这些信息永久保存在本地磁盘的两个⽂件中:命名空间
镜像⽂件、编辑⽇志⽂件
记录每个⽂件中各个块所在的数据节点信息,这些信息在内存中保存,每次启动系统时重建这些信息
负责响应客户端的 数据块位置请求 。也就是客户端想存数据,应该往哪些节点的哪些块存;客户端想
取数据,应该到哪些节点取
接受记录在数据存取过程中,datanode节点报告过来的故障、损坏信息
SecondaryNameNode(HA模式)
实现namenode容错的⼀种机制。定期合并编辑⽇志与命名空间镜像,当namenode挂掉时,可通过⼀
定步骤进⾏上顶。(注意 并不是NameNode的备⽤节点)
DataNode
根据需要存取并检索数据块
定期向namenode发送其存储的数据块列表
ResourceManager
负责Job的调度,将⼀个任务与⼀个NodeManager相匹配。也就是将⼀个MapReduce之类的任务分配给
⼀个从节点的NodeManager来执⾏。
NodeManager
运⾏ResourceManager分配的任务,同时将任务进度向application master报告
JournalNode(HA下启⽤):
⾼可⽤情况下存放namenodeeditlog⽂件
 
2. Hadoop1.x的缺点
1. JobTracker存在单点故障的隐患
2. 任务调度和资源管理全部是JobTracker来完成,单点负担过重
3. TaskTrackerMap/Reduce数量表示资源太过简单
4. TaskTracker Map Slot  Reduce Slot, 如果任务只需要map任务可能会造成资源浪费
 
3. Hadoop1.x Hadoop 2.x 的区别
1. 资源调度⽅式的改变
1.x, 使⽤Jobtracker负责任务调度和资源管理,单点负担过重,2.x,新增了yarn作为集群的调度⼯具.
yarn,使⽤ResourceManager进⾏ 资源管理单独开启⼀个Container作为ApplicationMaster来进⾏任务管
.
2. HA模式
1.x中没有HA模式,集群中只有⼀个NameNode,⽽在2.x中可以启⽤HA模式,存在⼀个Active NameNode 
Standby NameNode.
3. HDFS FederationHadoop 2.0中对HDFS进⾏了改进,使NameNode可以横向扩展成多个,每个NameNode分管⼀部分⽬录,
进⽽产⽣了HDFS Federation,该机制的引⼊不仅增强了HDFS的扩展性,也使HDFS具备了隔离性

 

 

 
 
------分隔线----------------------------
锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐