阿里云开发者社区

电脑版
提示:原网页已由神马搜索转码, 内容由developer.aliyun.com提供.

Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

2024-05-2638
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议》和 《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介:该文介绍了Hadoop中两种小文件管理策略。首先,通过Hadoop Archive (HAR)将小文件归档成大文件以减少存储和管理开销。操作包括使用`hadoop archive`命令进行归档和解档。其次,文章讨论了小文件优化的Uber模式,这种模式在同一JVM中运行所有MapReduce任务以提高效率和局部性,但可能引发单点故障和资源限制问题。启用Uber模式需在`mapred-site.xml`配置文件中设置相关参数。文中还提供了使用WordCount例子验证Uber模式配置的步骤。

@[toc]

小文件归档 HAR

小文件归档是指将大量小文件合并成较大的文件,从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。

这里我们通过 Hadoop Archive (HAR)来进行实现,它是一种归档格式,可以将多个小文件和目录归档成单个 HAR 文件。

在进行下面的操作前,请先启动集群。

对小文件进行归档

当前,在 /input目录下存储了 3个小文件,如下所示:

image.png

现在我们对这三个文件进行归档,命令如下:

hadoop archive -archiveName input.har -p /input /result

这里将目录 /input下的所有文件都进行归档,并保存在 /result目录下,取名为 input.har

image.png

进入归档结果目录中,可以发现归档文件的目录结构,其中 part-0中存储的就是真正的文件内容,它包含了三个文件的所有内容;其余的文件都是归档相关的文件记录信息。

查看已经归档的文件

hadoop fs -ls har:///result/input.har

image.png

解档文件

hadoop fs -cp har:///result/input.har/* /

image.png

注意,解档指定的目录必须提前创建。

小文件优化 Uber 模式

什么是 Uber 模式?

"Uber 模式" 是指在 Hadoop 中运行 MapReduce 任务时,将所有的任务(Mapper 和 Reducer)都运行在一个单独的 JVM 进程中,而不是在集群的不同节点上分别启动多个 JVM 进程来运行任务。

这个模式的名称来自于 Uber 公司,他们在其 Hadoop 集群上采用了这种方式来运行任务。

优点

  • 减少资源开销: Uber 模式可以减少任务启动的开销,因为不需要为每个任务都启动一个单独的 JVM 进程,这样可以节省内存和CPU资源。

  • 提高局部性: 由于所有任务在同一个 JVM 中运行,数据的局部性更高,因为不需要在不同节点之间传输数据。

  • 避免任务调度开销: 在分布式环境中,任务的调度也会带来一定的开销,Uber 模式可以避免这些开销,从而提高任务的执行效率。

缺点

  • 单点故障: 如果运行任务的 JVM 发生故障,所有的任务都会受到影响,而不是像分布式模式下那样只影响一个节点上的任务。

  • 资源限制: 由于所有任务共享一个 JVM,可能会受到 JVM 内存限制的影响,特别是对于需要大量内存的任务。

  • 性能不适用于所有场景: Uber 模式在某些情况下可能会导致性能下降,特别是当任务需要大量的并行计算时,由于共享一个 JVM,可能无法充分利用多核处理器。

当开启 Uber 模式后,Hadoop 会根据一定的规则和条件来自动判断是否使用 Uber 模式运行任务,还是使用分布式模式。

Uber 模式的配置

编辑 Hadoop 中的 mapred-site.xml配置文件,添加下列内容:

    <!--开启uber模式,默认关闭 -->
    <property>
          <name>mapreduce.job.ubertask.enable</name>
          <value>true</value>
    </property>
    <!-- 限制单个 JVM 中运行的 Map 任务数量,防止资源过度占用,最大 9  --> 
<property> <name>mapreduce.job.ubertask.maxmaps</name> <value>9</value> </property> <!-- 限制单个 JVM 中运行的 Reduce 任务数量,最大 1 --> <property> <name>mapreduce.job.ubertask.maxreduces</name> <value>1</value> </property> <!-- 设置在 Uber 模式下最大的输入数据量,默认值为 dfs.blocksize 的值(128MB) --> <property> <name>mapreduce.job.ubertask.maxbytes</name> <value></value> </property>

分发文件同步配置到其它机器,无需重启集群。

测试

当前,在 /input目录下存储了 3个小文件,如下所示:

image.png

我们来运行 Hadoop 官方案例 wordcount来测试 Uber 模式是否设置成功。

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

如果配置成功,在案例执行过程中会打印提示,正在使用 Uber 模式运行:

image.png

我们进入 Yarn 中查看案例运行记录:

image.png

可以看到只启动了 1个容器进行处理,并且只花费了 8秒,读者可以关闭 Uber 模式来对比前后的速度差别。

未开启 Uber 模式执行效率

image.png

启动了 5个容器进行处理,花费了 15秒。

相关文章
|
6天前
|
分布式计算资源调度负载均衡
Hadoop集群配置
【6月更文挑战第13天】
|
7天前
|
存储分布式计算资源调度
如何优化Hadoop集群的内存使用?
【6月更文挑战第18天】如何优化Hadoop集群的内存使用?
2766
|
7天前
|
存储分布式计算监控
如何提高Hadoop集群的网络传输速度?
【6月更文挑战第18天】如何提高Hadoop集群的网络传输速度?
1833
|
3天前
|
分布式计算HadoopJava
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
900
|
3天前
|
分布式计算资源调度监控
分布式系统详解--框架(Hadoop-集群搭建)
分布式系统详解--框架(Hadoop-集群搭建)
1400
|
12天前
|
存储分布式计算Hadoop
大数据之hadoop3入门到精通(一)
大数据之hadoop3入门到精通(一)
|
12天前
|
分布式计算Hadoop分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
3322
|
8天前
|
存储分布式计算Hadoop
Spark和Hadoop都是大数据处理领域的重要工具
【6月更文挑战第17天】Spark和Hadoop都是大数据处理领域的重要工具
3577
|
7天前
|
分布式计算资源调度Hadoop
大数据Hadoop集群部署与调优讨论
大数据Hadoop集群部署与调优讨论
|
8天前
|
存储分布式计算Hadoop
Hadoop是如何支持大数据处理的?
【6月更文挑战第17天】Hadoop是如何支持大数据处理的?
2411

热门文章

最新文章

相关实验场景

更多