提示:原网页已由神马搜索转码, 内容由developer.aliyun.com提供.

正文

Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

2024-05-26415

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

推荐场景：

轻松玩转一站式实时仓库

实时计算 Flink 版，5000CU*H 3个月

推荐场景：

实时发现最热Github项目

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

推荐场景：

搭建高质量商品搜索服务

简介：该文介绍了Hadoop中两种小文件管理策略。首先，通过Hadoop Archive (HAR)将小文件归档成大文件以减少存储和管理开销。操作包括使用`hadoop archive`命令进行归档和解档。其次，文章讨论了小文件优化的Uber模式，这种模式在同一JVM中运行所有MapReduce任务以提高效率和局部性，但可能引发单点故障和资源限制问题。启用Uber模式需在`mapred-site.xml`配置文件中设置相关参数。文中还提供了使用WordCount例子验证Uber模式配置的步骤。

@[toc]

小文件归档 HAR

小文件归档是指将大量小文件合并成较大的文件，从而减少存储开销、元数据管理的开销以及处理时的任务调度开销。

这里我们通过 Hadoop Archive (HAR)来进行实现，它是一种归档格式，可以将多个小文件和目录归档成单个 HAR 文件。

在进行下面的操作前，请先启动集群。

对小文件进行归档

当前，在 /input目录下存储了 3个小文件，如下所示：

现在我们对这三个文件进行归档，命令如下：

hadoop archive -archiveName input.har -p /input /result

这里将目录 /input下的所有文件都进行归档，并保存在 /result目录下，取名为 input.har。

进入归档结果目录中，可以发现归档文件的目录结构，其中 part-0中存储的就是真正的文件内容，它包含了三个文件的所有内容；其余的文件都是归档相关的文件记录信息。

查看已经归档的文件

hadoop fs -ls har:///result/input.har

解档文件

hadoop fs -cp har:///result/input.har/* /

注意，解档指定的目录必须提前创建。

小文件优化 Uber 模式

什么是 Uber 模式？

"Uber 模式" 是指在 Hadoop 中运行 MapReduce 任务时，将所有的任务（Mapper 和 Reducer）都运行在一个单独的 JVM 进程中，而不是在集群的不同节点上分别启动多个 JVM 进程来运行任务。

这个模式的名称来自于 Uber 公司，他们在其 Hadoop 集群上采用了这种方式来运行任务。

优点

减少资源开销： Uber 模式可以减少任务启动的开销，因为不需要为每个任务都启动一个单独的 JVM 进程，这样可以节省内存和CPU资源。
提高局部性：由于所有任务在同一个 JVM 中运行，数据的局部性更高，因为不需要在不同节点之间传输数据。
避免任务调度开销：在分布式环境中，任务的调度也会带来一定的开销，Uber 模式可以避免这些开销，从而提高任务的执行效率。

缺点

单点故障：如果运行任务的 JVM 发生故障，所有的任务都会受到影响，而不是像分布式模式下那样只影响一个节点上的任务。
资源限制：由于所有任务共享一个 JVM，可能会受到 JVM 内存限制的影响，特别是对于需要大量内存的任务。
性能不适用于所有场景： Uber 模式在某些情况下可能会导致性能下降，特别是当任务需要大量的并行计算时，由于共享一个 JVM，可能无法充分利用多核处理器。

当开启 Uber 模式后，Hadoop 会根据一定的规则和条件来自动判断是否使用 Uber 模式运行任务，还是使用分布式模式。

Uber 模式的配置

编辑 Hadoop 中的 mapred-site.xml配置文件，添加下列内容：

    <!--开启uber模式，默认关闭 -->
    <property>
          <name>mapreduce.job.ubertask.enable</name>
          <value>true</value>
    </property>
    <!-- 限制单个 JVM 中运行的 Map 任务数量，防止资源过度占用，最大 9  --> 
<property>
          <name>mapreduce.job.ubertask.maxmaps</name>
          <value>9</value>
    </property>
    <!-- 限制单个 JVM 中运行的 Reduce 任务数量，最大 1 -->
    <property>
          <name>mapreduce.job.ubertask.maxreduces</name>
          <value>1</value>
    </property>
    <!-- 设置在 Uber 模式下最大的输入数据量，默认值为 dfs.blocksize 的值（128MB） -->
    <property>
          <name>mapreduce.job.ubertask.maxbytes</name>
          <value></value>
    </property>

分发文件同步配置到其它机器，无需重启集群。

测试

当前，在 /input目录下存储了 3个小文件，如下所示：

我们来运行 Hadoop 官方案例 wordcount来测试 Uber 模式是否设置成功。

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

如果配置成功，在案例执行过程中会打印提示，正在使用 Uber 模式运行：

我们进入 Yarn 中查看案例运行记录：

可以看到只启动了 1个容器进行处理，并且只花费了 8秒，读者可以关闭 Uber 模式来对比前后的速度差别。

未开启 Uber 模式执行效率

启动了 5个容器进行处理，花费了 15秒。

文章标签：

关键词：

2月前

分布式计算HadoopJava

CentOS中构建高可用Hadoop 3集群

这个过程像是在一个未知的森林中探索。但当你抵达终点，看到那个熟悉的Hadoop管理界面时，所有的艰辛都会化为乌有。仔细观察，尽全力，这就是构建高可用Hadoop 3集群的挑战之旅。

蓝易云

1052121

武子康

9月前

分布式计算KubernetesHadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

37666

武子康

9月前

分布式计算资源调度Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

18022

武子康

9月前

分布式计算HadoopShell

Hadoop-35 HBase 集群配置和启动 3节点云服务器集群效果测试 Shell测试

武子康

17144

武子康

9月前

SQL分布式计算Hadoop

Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作列族信息扫描全表

武子康

8933

武子康

9月前

分布式计算HadoopShell

Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查全程多图详细列族 row key value filter

武子康

12233

武子康

9月前

分布式计算JavaHadoop

Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点监听数据变化创建节点删除节点

武子康

16511

武子康

9月前

分布式计算监控Hadoop

Hadoop-29 ZooKeeper集群 Watcher机制工作原理与 ZK基本命令测试集群效果 3台公网云服务器

武子康

12411

赵渝强老师

8月前

分布式计算资源调度Hadoop

【赵渝强老师】部署Hadoop的本地模式

本文介绍了Hadoop的目录结构及本地模式部署方法，包括解压安装、设置环境变量、配置Hadoop参数等步骤，并通过一个简单的WordCount程序示例，演示了如何在本地模式下运行MapReduce任务。

赵渝强老师

20600

Echo_Wish

4月前

存储分布式计算Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

2227980

阿里云开发者社区

Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

小文件归档 HAR

小文件优化 Uber 模式

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景