阿里云开发者社区

电脑版
提示:原网页已由神马搜索转码, 内容由developer.aliyun.com提供.

月亮给我抄代码_社区达人页

个人头像照片
月亮给我抄代码
已加入开发者社区1202

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布67篇文章
18条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
  • Shell
  • Hive
  • Spark
  • Flume
  • Hadoop
  • DataX
  • FineBI
  • Kafka
擅长领域
技术认证

暂时未有相关云产品技术能力~

大数据的坑,让我来踩吧! -- moon_coder

    暂无精选文章
    暂无更多信息

    2024年05月

    • 05.2619:36:35
      发表了文章2024-05-26 19:36:35

      Spark 分析计算连续三周登录的用户数

      本文介绍了如何使用窗口函数`range between`来查询`login_time`为2022-03-10的用户最近连续三周的登录数。首先在MySQL中创建`log_data`表并插入数据,接着定义需求为找出该日期前连续三周活跃的用户数。通过Spark SQL,分步骤实现:1)确定统计周期,2)筛选符合条件的数据,3)计算用户连续登录状态。在初始实现中出现错误,因未考虑日期在周中的位置,修正后正确计算出活跃用户数。
    • 05.2619:32:19
      发表了文章2024-05-26 19:32:19

      HBase 相关面试题

      HBase 是一种基于 Hadoop 的分布式 NoSQL 数据库,它是 Google 的Bigtable 的开源实现。
    • 05.2619:30:47
      发表了文章2024-05-26 19:30:47
    • 05.2619:30:16
      发表了文章2024-05-26 19:30:16

      HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

      在HBase Shell遇到错误时,检查Hadoop非安全模式:`hdfs dfsadmin -safemode get`。问题解决在于`hbase-site.xml`中添加配置:Zookeeper客户端端口设为2181和预写日志提供者设为filesystem。
    • 05.2619:28:34
      发表了文章2024-05-26 19:28:34

      Hive 求多个字段的中位数(按行求中位数)

      在项目中遇到按行求中位数的Hive需求,本文通过创建测试数据,展示解决方案。首先使用`lateral view`和`explode`将多字段行转为列,然后通过`percentile`函数计算每行数据的中位数,最终得到结果。该方法适用于将行转为列处理复杂需求,欢迎探讨更优解。
    • 05.2619:27:33
      发表了文章2024-05-26 19:27:33

      大数据用户画像之基本概念

      大数据用户画像利用大数据技术分析用户基本信息、消费行为、兴趣、社交及地理数据,创建详细用户模型,助力企业精准营销。涉及技术包括数据挖掘、大数据处理(Hadoop、Spark)、数据可视化、机器学习和数据库管理。通过用户画像,企业可实现市场定位、个性化推荐、精准广告、产品优化和风险控制。学习该领域需掌握多个技术栈,包括相关算法、工具及业务理解。
    • 05.2619:26:54
      发表了文章2024-05-26 19:26:54

      大数据之 Solr 集群搭建

      Solr是一个基于Java的高性能全文搜索服务器,扩展自Lucene,提供丰富查询语言和优化的查询性能。它支持通过HTTP接口以XML格式进行索引和搜索操作。在集群环境中,涉及解压软件包,配置环境变量,修改Zookeeper参数,文件分发,启动Solr和Zookeeper服务。建议使用非root用户启动,确保安全。启动后,通过WEB UI验证Solr集群部署是否成功,遇到问题如找不到solr.xml文件,可通过指定-Dsolr.solr.home参数解决。
    • 05.2619:23:31
      发表了文章2024-05-26 19:23:31

      Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

      Azkaban任务因内存不足持续运行,日志显示无法申请65536kb至270336kb内存。系统要求至少3GB内存,但当前executor节点内存低于此阈值。解决方案包括释放内存、增加内存或关闭内存检查(通过在`commonprivate.properties`设置`memCheck.enabled=false`)。
    • 05.2619:21:50
      发表了文章2024-05-26 19:21:50

      使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

      在 MySQL 的 `order_info` 表中,包含 `order_id` 等5个字段,主要存储订单信息。执行按 `create_time` 降序的查询,显示了部分结果。在 Hive 中复制此表结构时,所有字段除 `order_id` 外设为 `string` 类型,并添加了 `etl_date` 分区字段。然而,由于使用逗号作为字段分隔符,当 `address` 字段含逗号时,数据写入 Hive 出现错位,导致 `create_time` 值变为中文字符串。问题解决方法包括更换字段分隔符或使用 Hive 默认分隔符 `\u0001`。此案例提醒在建表时需谨慎选择字段分隔符。
    • 05.2619:21:03
      发表了文章2024-05-26 19:21:03

      【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

      标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
    • 05.2619:20:39
      发表了文章2024-05-26 19:20:39

      【机器学习】Spark ML 对数据特征进行 One-Hot 编码

      One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
    • 05.2619:20:03
      发表了文章2024-05-26 19:20:03

      【指标计算】Spark 计算指定用户与其他用户购买的相同商品

      该代码示例使用Spark SQL解决查找指定用户(user01)与其他用户共同购买商品的问题。首先,创建SparkSession和模拟购买数据,然后通过SQL查询获取user01购买的商品集合。接着,对比所有用户购买记录,筛选出购买过相同商品且非user01的用户。输出显示了这些匹配用户的商品ID。关键在于使用`array_contains`函数检查商品是否在指定用户的购买列表中。遇到类似需求时,可参考Spark SQL官方函数文档。欢迎讨论复杂指标计算问题。
    • 05.2619:19:20
    • 05.2619:18:49
      发表了文章2024-05-26 19:18:49

      IDEA 提交代码到 GitHub 时发生错误

      摘要: 在遇到访问 GitHub 时的错误,这两个命令分别用于处理 SSL 连接问题和连接超时问题。
    • 05.2619:17:38
      发表了文章2024-05-26 19:17:38

      DataGrip 配置 HiveServer2 远程连接访问(含账号密码验证)

      该文档介绍了如何为HiveServer2配置账号密码鉴权。提供了一个名为`CustomPasswdAuthenticator`的Java类实现`PasswdAuthenticationProvider`接口,用于验证HiveServer2的用户名和密码。此外,还给出了相关依赖的Maven配置,并说明了如何将编译后的Jar包放入Hive的库中。在Hive的`hive-site.xml`和Hadoop的`core-site.xml`中需配置相应的参数以启用自定义认证。文档还列举了可能遇到的问题及解决方法,包括权限问题、数据插入错误和JVM内存溢出。
    • 05.2619:15:06
      发表了文章2024-05-26 19:15:06

      Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG!

      在Hive 3.1.2和Spark 3.0.2集群环境中,遇到`dayofweek`函数bug。当`create_date`为字符串类型时,`dayofweek`函数结果错位。修复方法是将`create_date`转换为`date`类型。在Spark SQL中,原始代码能正常运行,未出现此问题。因此建议在Hive中使用转换后的日期类型以避免错误。
    • 05.2619:13:35
      发表了文章2024-05-26 19:13:35

      Vmware 虚拟机挂起恢复后发现无法 Ping 通,无法连接到主机

      在Linux主机上,以`root`用户停止NetworkManager服务并重启网络: ```shell systemctl stop NetworkManager systemctl restart network ``` 或修改网卡配置文件`ifcfg-ens33`,添加`NM_CONTROLLED="no"`,然后重启`network`服务: ```shell vim /etc/sysconfig/network-scripts/ifcfg-ens33 systemctl restart network ```
    • 05.2619:12:45
      发表了文章2024-05-26 19:12:45

      Hadoop Yarn 核心调优参数

      这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
    • 05.2619:11:57
      发表了文章2024-05-26 19:11:57

      Hadoop Yarn 配置多队列的容量调度器

      配置Hadoop多队列容量调度器,编辑`capacity-scheduler.xml`,新增`hive`队列,`default`队列占总内存40%,最大60%;`hive`队列占60%,最大80%。配置包括队列容量、用户权限和应用生存时间等,配置后使用`yarn rmadmin -refreshQueues`刷新队列,无需重启集群。多队列配置可在Yarn WEB界面查看。
    • 05.2619:11:04
      发表了文章2024-05-26 19:11:04

      NameNode 处理线程配置(心跳并发)

      NameNode线程池处理客户端和数据节点请求,如读写文件及心跳、块报告。通过调整`dfs.namenode.handler.count`(默认10,示例设为21)在`hdfs-site.xml`中可控制并发处理能力。线程数过多或过少都可能影响性能,需平衡资源使用并进行基准测试以确定最佳值。合理线程数可通过公式`int(math.log(N) * 20)`计算,N为服务器数量。例如,3台服务器的计算结果为21。
    • 05.2619:10:11
      发表了文章2024-05-26 19:10:11

      HDFS 集群读写压测

      在虚拟机中配置集群时,需设置每台服务器网络为百兆,以模拟实际网络环境。使用Hadoop的`TestDFSIO`进行HDFS性能测试,包括写入和读取数据。写测试中,创建11个128MB文件,平均写入速度为3.86 MB/sec,总处理数据量1408 MB,测试时间137.46秒。资源分配合理,传输速度超过单台服务器理论最大值12.5M/s,说明网络资源已充分利用。读测试主要依赖硬盘传输速率,速度快。测试完成后使用`TestDFSIO -clean`删除测试数据。
    • 05.2619:09:04
      发表了文章2024-05-26 19:09:04

      NameNode 故障无法重新启动解决方法

      当NameNode进程挂掉时,若无数据丢失,可直接使用`hdfs --daemon start namenode`重启。但若数据丢失,需从SecondaryNameNode恢复。首先查看启动日志,确认因数据丢失导致的未启动成功问题。接着,将SecondaryNameNode的备份数据拷贝至NameNode的数据存储目录,目录路径在`core-site.xml`中设定。进入NameNode节点,使用`scp`命令从SecondaryNameNode复制数据后,重启NameNode进程,故障即可修复。
    • 05.2619:07:09
      发表了文章2024-05-26 19:07:09

      Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

      本文介绍了Hadoop集群安全模式的相关命令和问题解决。当集群处于安全模式时,可使用`hdfs dfsadmin -safemode get`检查状态,`enter`进入,`leave`或`forceExit`离开。若因数据块不一致导致安全模式持续,可通过强制退出,然后删除丢失数据块的文件以恢复正常。如果遇到权限问题,可以使用`chmod`授权或关闭HDFS权限验证(不推荐),配置修改后需重启集群生效。
    • 05.2619:06:11
      发表了文章2024-05-26 19:06:11

      Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式

      该文介绍了Hadoop中两种小文件管理策略。首先,通过Hadoop Archive (HAR)将小文件归档成大文件以减少存储和管理开销。操作包括使用`hadoop archive`命令进行归档和解档。其次,文章讨论了小文件优化的Uber模式,这种模式在同一JVM中运行所有MapReduce任务以提高效率和局部性,但可能引发单点故障和资源限制问题。启用Uber模式需在`mapred-site.xml`配置文件中设置相关参数。文中还提供了使用WordCount例子验证Uber模式配置的步骤。
    • 05.2619:04:39
      发表了文章2024-05-26 19:04:39

      Hadoop MapReduce 调优参数

      对于 Hadoop v3.1.3,针对三台4核4G服务器的MapReduce调优参数包括:`mapreduce.reduce.shuffle.parallelcopies`设为10以加速Shuffle,`mapreduce.reduce.shuffle.input.buffer.percent`和`mapreduce.reduce.shuffle.merge.percent`分别设为0.8以减少磁盘IO。
    • 05.2619:03:56
      发表了文章2024-05-26 19:03:56

      一文看懂 Hive 优化大全(参数配置、语法优化)

      以下是对提供的内容的摘要,总长度为240个字符: 在Hadoop集群中,服务器环境包括3台机器,分别运行不同的服务,如NodeManager、DataNode、NameNode等。集群组件版本包括jdk 1.8、mysql 5.7、hadoop 3.1.3和hive 3.1.2。文章讨论了YARN的配置优化,如`yarn.nodemanager.resource.memory-mb`、`yarn.nodemanager.vmem-check-enabled`和`hive.map.aggr`等参数,以及Map-Side聚合优化、Map Join和Bucket Map Join。
    • 05.2619:00:09
      发表了文章2024-05-26 19:00:09

      Hive 表注释乱码解决

      Hive元数据在MySQL默认使用`latin1`字符集导致注释乱码。可通过修改MySQL配置文件`/etc/my.cnf`,在`[mysqld]`和末尾添加`character-set-server=utf8`等设置,重启MySQL。然后在Hive数据库中调整表字段、分区字段、索引注释的字符集。注意,这仅对新表生效。测试创建带注释的Hive表,问题解决。
    • 05.2618:59:04
      发表了文章2024-05-26 18:59:04

      Hive 和 HDFS、MySQL 之间的关系

      Hive是Hadoop上的数据仓库工具,用HiveQL进行大数据查询;HDFS是分布式文件系统,用于存储大规模数据,常与Hive结合,提供数据存储和高可靠性。MySQL是RDBMS,适用于结构化数据管理,在大数据环境里可存储Hive的元数据,提升查询效率和元数据管理。三者协同处理数据管理和分析任务。
    • 05.2618:58:23
      发表了文章2024-05-26 18:58:23

      【Hive SQL 每日一题】统计用户连续下单的日期区间

      该SQL代码用于统计用户连续下单的日期区间。首先按`user_id`和`order_date`分组并去除重复,然后使用`row_number()`标记行号,并通过`date_sub`与行号计算潜在的连续日期。接着按用户ID和计算后的日期分组,排除连续订单数少于2的情况,最后提取连续下单的起始和结束日期。输出结果展示了用户连续下单的日期范围。
    • 05.2618:57:36
      发表了文章2024-05-26 18:57:36

      Zookeeper 启动失败【Cannot open channel to 3 at election address...】

      解决Hadoop Zookeeper连接问题:检查Zookeeper目录权限,使用`sudo chown -R username:username /your_zookeeper_path`授权。确保`zoo.cfg`配置`quorumListenOnAllIPs=true`并监听所有IP。关键是机器ID(如`server.0`, `server.1`等)需与IP或主机名对应,修正`zoo.cfg`中的设置,例如`server.0=hadoop120:2888:3888`等。重启Zookeeper后,问题解决。
    • 05.2618:56:30
      发表了文章2024-05-26 18:56:30

      Maxwell 概述、安装、数据同步【一篇搞定】!

      Maxwell 是一个由 Zendesk 开源的用于 MySQL 数据库实时数据捕获和同步的工具,支持多种数据库系统,以 JSON 格式输出变更数据。它实时监控数据库中的更新,将变化传递给其他系统,常用于实时数据管道、数据仓库和事件驱动架构。Maxwell 具有实时性、可配置性和高性能等特点。其工作流程包括 Binlog 解析、数据解析、重构、发布到消息队列(如 Kafka)以及事件处理。安装时需注意 JDK 版本,并配置 MySQL、Zookeeper 和 Kafka。此外,Maxwell 支持定向监听特定库表,并能进行历史和增量数据同步。
    • 05.2617:40:06
      发表了文章2024-05-26 17:40:06

      DataX 概述、部署、数据同步运用示例

      DataX是阿里巴巴开源的离线数据同步工具,支持多种数据源之间的高效传输。其特点是多数据源支持、可扩展性、灵活配置、高效传输、任务调度监控和活跃的开源社区支持。DataX通过Reader和Writer插件实现数据源的读取和写入,采用Framework+plugin架构。部署简单,解压即可用。示例展示了如何配置DataX同步MySQL到HDFS,并提供了速度和内存优化建议。此外,还解决了NULL值同步问题及配置文件变量传参的方法。
    • 05.2617:34:54
      发表了文章2024-05-26 17:34:54

      Git 快速入门

      初始化Git仓库、移除远程仓库连接、添加新远程仓库如`https://gitee.com/xxx.git`,使用`git pull --rebase`同步、`git add .`添加改动、`git commit -m& quot;message"`提交,放弃提交用`git reset --hard`,最后`git push origin master`推送至远程主分支。
    • 05.2617:33:22
      发表了文章2024-05-26 17:33:22

      Ubuntu 20.04 安装部署 TiDB DM v7.3.0 集群【全网独家】

      在Ubuntu上搭建TiDB DM集群的详细步骤分享,作者因工作需求克服了部署难题。测试环境包括3台Ubuntu 20.04主机:1台master和2台worker。首先,确保所有主机安装TiDB单机环境,使用TiUP工具下载并部署。接着,设置主机间免密登录,安装必要组件如sudo、systemd、iproute2和DM组件。配置文件可通过在线或离线方式获取。部署时,根据需求编辑`topology.yaml`,然后使用`tiup dm deploy`命令安装。最后,启动集群并检查节点状态,确认DM集群正常运行。注意,解决内存不足和端口连通性问题以避免错误。
    • 05.2617:31:38
      发表了文章2024-05-26 17:31:38

      Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程

      该文档提供了在Ubuntu上卸载和安装MySQL 5.7的步骤。首先,通过`apt`命令卸载所有MySQL相关软件包及配置。然后,下载特定版本(5.7.32)的MySQL安装包,解压并安装所需依赖。接着,按照特定顺序安装解压后的deb包,并在安装过程中设置root用户的密码。安装完成后,启动MySQL服务,连接数据库并验证。最后,提到了开启GTID和二进制日志的配置方法。
    • 05.2617:28:42
      发表了文章2024-05-26 17:28:42

      Ubuntu 报错:System has not been booted with systemd as init system (PID 1). Can‘t operate.

      系统未使用 `systemd` 初始化导致错误。解决方法是通过 `apt` 安装。首先备份并更换`sources.list`,添加阿里云镜像源,然后更新源并以管理员权限运行 `apt-get install systemd -y` 和 `apt-get install systemctl -y` 安装所需组件。
    • 05.2617:21:37
      发表了文章2024-05-26 17:21:37

      ARM 堆栈寻址类型区分

      该文介绍了堆栈的两种指向分类:向上生成型(递增堆栈)和向下生成型(递减堆栈),以及堆栈的两种数据状态:满堆栈(指针指向最后数据)和空堆栈(指针指向存放数据的位置)。满递增和满递减是在完整数据单元上操作,而空递增和空递减则允许自定义步长。文中通过图示说明了不同情况下的堆栈存储方式。
    • 05.2617:20:36
      发表了文章2024-05-26 17:20:36

      【Hive SQL 每日一题】环比增长率、环比增长率、复合增长率

      该文介绍了环比增长率、同比增长率和复合增长率的概念及计算公式,并提供了SQL代码示例来计算商品的月度增长率。环比增长率是相邻两期数据的增长率,同比增长率是与去年同期相比的增长率,复合增长率则是连续时间段内平均增长的速率。文章还包含了一组销售数据用于演示如何运用这些增长率进行计算。
    • 05.2617:19:54
      发表了文章2024-05-26 17:19:54

      【Hive SQL】字符串操作函数你真的会用吗?

      本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项,而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置,用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配,常与通配符配合使用。注意`IN`并非用于判断子串包含。
    • 05.2617:18:41
      发表了文章2024-05-26 17:18:41

      Flume 快速入门【概述、安装、拦截器】

      Apache Flume 是一个开源的数据采集工具,用于从各种数据源(如日志、网络数据、消息队列)收集大规模数据,并将其传输和加载到数据存储系统(如 HDFS、HBase、Hive)。Flume 由数据源(Source)、通道(Channel)、拦截器(Interceptor)和接收器(Sink)组成,支持灵活配置以适应不同的数据流处理需求。安装 Flume 包括解压软件包、配置环境变量和调整日志及内存设置。配置文件定义数据源、通道、拦截器和接收器,拦截器允许预处理数据。Flume 适用于构建数据管道,整合分散数据到中心存储系统,便于分析和报告。
    • 05.2617:12:42
      发表了文章2024-05-26 17:12:42

      Hive 解析 JSON 字符串数据的实现方式

      Hive 提供 `get_json_object` 函数解析 JSON 字符串,如 `{"database":"maxwell"}`。`path` 参数使用 `$`、`.`、`[]` 和 `*` 来提取数据。示例中展示了如何解析复杂 JSON 并存储到表中。此外,Hive 3.0.0及以上版本内置 `JsonSerDe` 支持直接处理 JSON 文件,无需手动解析。创建表时指定 `JsonSerDe` 序列化器,并在 HDFS 上存放 JSON 文件,可以直接查询字段内容,方便快捷。
    • 05.2617:11:14
      发表了文章2024-05-26 17:11:14

      大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

      数据仓库建模是组织和设计数据以支持数据分析的过程,包括ER模型和维度建模。ER模型通过实体和关系描述数据结构,遵循三范式减少冗余。维度建模,特别是Kimball方法,用于数据仓库设计,便于分析和报告。事实表存储业务度量,如销售数据,分为累积、快照、事务和周期性快照类型。维度表提供描述性信息,如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据),以优化数据管理、质量、查询性能和适应性。
    • 05.2611:44:08
      发表了文章2024-05-26 11:44:08

      retry.RetryInvocationHandler: java.net.NoRouteToHostException: No Route to Host from hadoop100/192.

      Error: NoRouteToHostException connecting hadoop100 to hadoop101. Possible causes include firewall issues or misconfigured IP mappings. Check firewall status with `ufw` (Ubuntu) or `firewalld` (CentOS), ensure correct hosts and hostname entries, and verify passwordless SS
    • 05.2611:42:57
      发表了文章2024-05-26 11:42:57

      在 Linux 中通过 SSH 执行远程命令时,无法自动加载环境变量(已解决)

      SSH远程执行命令时遇到“命令未找到”问题,原因是Linux登录方式不同导致环境变量加载差异。解决方案:将环境变量写入`/etc/profile.d/`下的文件,或手动在命令前加载环境变量,如`source /etc/profile`。
    • 05.2611:40:09
      发表了文章2024-05-26 11:40:09

      Linux(CentOS7.5) 安装部署 Python3.6(超详细!包含 Yum 源配置!)

      该指南介绍了在Linux系统中配置Yum源和安装Python3的步骤。首先,通过`yum install`和`wget`命令更新和备份Yum源,并从阿里云获取CentOS和EPEL的repo文件。接着,清理和更新Yum缓存。然后,下载Python3源代码包,推荐使用阿里云镜像加速。解压后,安装必要的依赖,如gcc。在配置和编译Python3时,可能需要解决缺少C编译器的问题。完成安装后,创建Python3和pip3的软链接,并更新环境变量。最后,验证Python3安装成功,并可选地升级pip和配置pip源以提高包下载速度。
    • 05.2611:37:20
      发表了文章2024-05-26 11:37:20

      Flume 配置文件编写技巧(包会的,抄就完了)

      本文介绍了Apache Flume的基础配置,包括数据源(Source)、数据通道(Channel)和数据处理器(Sink)三大部分。配置文件编写流程包括查阅官方文档、参考样例配置、实际操作配置。文章提供了一个经典例子,展示如何从本地端口收集数据并通过内存通道缓冲,最终记录到日志。配置流程包括声明组件、配置Source、Sink和Channel,然后将它们绑定。通过示例展示了如何配置HTTP Source和HDFS Sink,并给出了完整的配置文件示例及测试步骤,帮助读者理解Flume配置文件的编写。
    • 05.2611:33:39
      发表了文章2024-05-26 11:33:39

      Flume 拦截器概念及自定义拦截器的运用

      Apache Flume 的拦截器是事件处理组件,位于Source和Channel之间,用于在写入Channel前对数据进行转换、提取或删除。它们支持数据处理和转换、数据增强、数据过滤以及监控和日志功能。要创建自定义拦截器,需实现Interceptor接口,包含initialize、intercept、intercept(List<Event>)和close方法。配置拦截器时,通过Builder模式实现Interceptor.Builder接口。在Flume配置文件中指定拦截器全类名,如`TestInterceptor$Builder`,然后启动Flume进行测试。
    • 05.2611:30:55
      发表了文章2024-05-26 11:30:55

      org.apache.hadoop.security.AccessControlException Permission denied: user=anonymous, access=WRITE...

      在尝试通过 HiveServer2 远程执行 DDL 操作时遇到权限错误,错误信息显示匿名用户(`anonymous`)无权执行写操作。解决方案包括:1) 使用 `hdfs dfs -chmod -R +777 /warehouse` 给目录授权(不推荐,仅适用于测试环境);2) 配置 Hive 和 Hadoop,创建具有权限的用户,如 `ad`,并将该用户添加到 Hive 的管理员角色和 Hadoop 的 proxyuser 配置中,然后重启相关服务。通过 `beeline` 测试连接和操作,确认权限问题已解决。
    • 05.2611:27:15
      发表了文章2024-05-26 11:27:15

      Hive 之 UDF 运用(包会的)

      Hive的UDF允许用户自定义数据处理函数,扩展其功能。`reflect()`函数通过Java反射调用JDK中的方法,如静态或实例方法。例如,调用`MathUtils.addNumbers()`进行加法运算。要创建自定义UDF,可以继承`GenericUDF`,实现`initialize`、`evaluate`和`getDisplayString`方法。在`initialize`中检查参数类型,在`evaluate`中执行业务逻辑。最后,打包项目成JAR,上传到HDFS,并在Hive中注册以供使用。
    • 05.2611:23:37
      发表了文章2024-05-26 11:23:37

      IDEA 打包 Spark 项目 POM 文件依赖

      这是一个 Maven POM 示例,用于构建一个使用 Spark 与 Hive 的项目,目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖,包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包,生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围,如 `compile`(默认),`provided`,`runtime`,`test` 和 `system`。
    • 发表了文章2024-05-26

      Spark 分析计算连续三周登录的用户数

    • 发表了文章2024-05-26

      HBase 相关面试题

    • 发表了文章2024-05-26

      Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs

    • 发表了文章2024-05-26

      HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

    • 发表了文章2024-05-26

      大数据之 Solr 集群搭建

    • 发表了文章2024-05-26

      Hive 求多个字段的中位数(按行求中位数)

    • 发表了文章2024-05-26

      大数据用户画像之基本概念

    • 发表了文章2024-05-26

      Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

    • 发表了文章2024-05-26

      使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

    • 发表了文章2024-05-26

      【机器学习】Spark ML 对数据特征进行 One-Hot 编码

    • 发表了文章2024-05-26

      Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException

    • 发表了文章2024-05-26

      【指标计算】Spark 计算指定用户与其他用户购买的相同商品

    • 发表了文章2024-05-26

      IDEA 提交代码到 GitHub 时发生错误

    • 发表了文章2024-05-26

      Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

    • 发表了文章2024-05-26

      【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

    • 发表了文章2024-05-26

      DataGrip 配置 HiveServer2 远程连接访问(含账号密码验证)

    • 发表了文章2024-05-26

      Vmware 虚拟机挂起恢复后发现无法 Ping 通,无法连接到主机

    • 发表了文章2024-05-26

      Hadoop Yarn 核心调优参数

    • 发表了文章2024-05-26

      Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG!

    • 发表了文章2024-05-26

      NameNode 处理线程配置(心跳并发)

    正在加载, 请稍后...
    滑动查看更多
      正在加载, 请稍后...
      暂无更多信息
        正在加载, 请稍后...
        暂无更多信息
        勋章
        关注
        粉丝