提示:原网页已由神马搜索转码, 内容由developer.aliyun.com提供.

正文

HDFS 集群读写压测

2024-05-2668

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

推荐场景：

实时发现最热Github项目

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

推荐场景：

数据可视化分析航班信息

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

推荐场景：

搭建高质量商品搜索服务

简介：在虚拟机中配置集群时，需设置每台服务器网络为百兆，以模拟实际网络环境。使用Hadoop的`TestDFSIO`进行HDFS性能测试，包括写入和读取数据。写测试中，创建11个128MB文件，平均写入速度为3.86 MB/sec，总处理数据量1408 MB，测试时间137.46秒。资源分配合理，传输速度超过单台服务器理论最大值12.5M/s，说明网络资源已充分利用。读测试主要依赖硬盘传输速率，速度快。测试完成后使用`TestDFSIO -clean`删除测试数据。

@[toc]

虚拟机设置

如果你是在虚拟机中使用集群，那你你需要先对每台服务器进行网络设置，模拟真实网络传输速率。

如下所示：

将其设置为百兆网，每台服务器都要进行设置哦。

HDFS 写数据测试

进行写数据测压，运行官方案例。

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 11 -fileSize 128MB

参数解析：

官方测压 Jar 包： hadoop-mapreduce-client-jobclient-3.1.3-tests.jar
类名：TestDFSIO
操作类型：-write
指定操作文件数量：-nrFiles 11，该参数设置为集群服务器总CPU核心数减 1
指定传输文件大小：fileSize 128MB

写入测试结果分析：

Date& time：测试执行的日期和时间为 2023-08-25 22:23:39 CST。
Number of files：在测试中创建了 11 个文件。
Total MBytes processed：单个 map 总共处理了 1408 MB 的数据。
Throughput mb/sec：吞吐量，即每秒写入的数据量，为 3.86 MB/sec。这表示在测试期间，平均每秒写入了约 3.86 MB 的数据。
Average IO rate mb/sec：平均的IO速率，即数据写入的平均速率，为 4.3 MB/sec。这是所有写入操作的平均速率。
IO rate std deviation：IO速率的标准差，为 1.43。这个值衡量了IO速率的变化程度。较高的标准差可能表示写入速率在测试期间有较大的波动。
Test exec time sec：测试执行的时间为 137.46 秒。这表示整个测试的执行时间。

那么如何确定资源是否合理分配跑满了呢？

在上面，我们设置每台服务器的网速为 100Mbps(bit)，换算成兆每秒结果为 12.5M/s(byte)，因为 1byte = 8bit。

输出结果中显示平均速率为 3.86 M/s，三台服务器共传输了 3 * 11个文件，所以实测速度为 3.86 * 33 = 127.38M/s，显然该速度远远大于 3 * 12.5M/s，所有资源传输速度都很快，网络资源已经拉满。

该测试结果会受到网速、硬盘传输速率的影响。

HDFS 读数据测试

进行读数据测压，运行官方案例。

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 11 -fileSize 128MB

读测试结果如下：

由于这里的数据都在本地，所以拼的就是硬盘的传输速率，没有网络IO，速度很快。

删除压测产生的数据

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

文章标签：

关键词：

相关实践学习

通过性能测试PTS对云服务器ECS进行规格选择与性能压测

本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。

月亮给我抄代码

aliyun4381607004

存储SQL分布式计算

阿里云全托管flink-vvp平台hudi connector实践（基于emr集群oss-hdfs存储）

阿里云全托管flink-vvp平台hudi sink connector实践，本文数据湖hudi基于阿里云E-MapReduce产品，以云对象存储oss-hdfs作为存储

aliyun4381607004

58700

1288912195458132

28天前

存储安全

HDFS读写流程详解

1288912195458132

5022

土木林森

1月前

存储分布式计算Hadoop

【揭秘Hadoop背后的秘密！】HDFS读写流程大曝光：从理论到实践，带你深入了解Hadoop分布式文件系统！

【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件，专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构，前者负责元数据管理，后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取，有助于理解HDFS的工作原理及其在大数据处理中的应用价值。

土木林森

4911

番茄酱脑袋

1月前

分布式计算流计算

美团 Flink 大作业部署问题之Checkpoint Replicate Service 跨 HDFS 集群的副本制作是如何实现的

番茄酱脑袋

4000

三分钟热度的鱼

3月前

消息中间件SQLKafka

实时计算 Flink版产品使用问题之独立集群与hdfs集群不在一起，何配置checkpoint目录为hdfs

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

3811

三分钟热度的鱼

3月前

SQLJSON数据处理

实时计算 Flink版产品使用问题之把hdfs集群里的core-site.xml hdfs.xml两个文件放到flink/conf/目录下，启动集群说找不到hdfs，该如何解决

三分钟热度的鱼

4211

yuanzhengme

4月前

分布式计算资源调度Hadoop

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）