提示:原网页已由神马搜索转码, 内容由developer.aliyun.com提供.

正文

Hive 解析 JSON 字符串数据的实现方式

2024-05-2646

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

推荐场景：

实时发现最热Github项目

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

推荐场景：

数据可视化分析航班信息

大数据开发治理平台 DataWorks，不限时长

推荐场景：

Github实时数据分析与可视化

简介：Hive 提供 `get_json_object` 函数解析 JSON 字符串，如 `{"database":"maxwell"}`。`path` 参数使用 `$`、`.`、`[]` 和 `*` 来提取数据。示例中展示了如何解析复杂 JSON 并存储到表中。此外，Hive 3.0.0及以上版本内置 `JsonSerDe` 支持直接处理 JSON 文件，无需手动解析。创建表时指定 `JsonSerDe` 序列化器，并在 HDFS 上存放 JSON 文件，可以直接查询字段内容，方便快捷。

@[toc]

通过方法解析现实

在 Hive 中提供了直接解析 JSON 字符串数据的方法 get_json_object(json_txt, path)，该方法参数解析如下：

json_txt：顾名思义，就是 JSON 字符串；
path：指的是匹配 JSON 字符串的格式，通过固定的语法获取 JSON 字符串中的内容。

常用的 path参数匹配符号有四个，分别是：

$：表示获取整个 JSON 文件的根；
.：表示获取子元素；
[]：表示获取列表；
*：表示获取列表中的元素。

示例

当前有一条 Maxwell 采集的 JSON 字符串数据，如下所示：

{

"database":"maxwell","table":"bootstrap","type":"insert","ts":1683629964,"xid":395746,"commit":true,"data":{

"id":8,"database_name":"school","table_name":"test2","where_clause":null,"is_complete":0,"inserted_rows":0,"total_rows":0,"created_at":null,"started_at":null,"completed_at":null,"binlog_file":null,"binlog_position":0,"client_id":"maxwell","comment":null}}

下面在 Hive 中对其进行解析，为了方便解析，先将其存储到测试表中：

drop table if exists json_test;
create table json_test(json_txt string);
insert into json_test values('{"database":"maxwell","table":"bootstrap","type":"insert","ts":1683629964,"xid":395746,"commit":true,"data":{"id":8,"database_name":"school","table_name":"test2","where_clause":null,"is_complete":0,"inserted_rows":0,"total_rows":0,"created_at":null,"started_at":null,"completed_at":null,"binlog_file":null,"binlog_position":0,"client_id":"maxwell","comment":null}}');
-- 下面开始解析 JSON 字符串
select
    -- 先获取根然后再获取子元素
    get_json_object(json_txt,"$.database") `database`,
    get_json_object(json_txt,"$.table") `table`,
    get_json_object(json_txt,"$.type") `type`,
    get_json_object(json_txt,"$.ts") ts,
    get_json_object(json_txt,"$.xid") xid,
    -- 获取多级关系的内容就嵌套使用
    get_json_object(json_txt,"$.data.id") id,
    get_json_object(json_txt,"$.data.database_name") database_name,
    get_json_object(json_txt,"$.data.table_name") table_namefrom
    json_test;

查询结果如下：

通过序列化实现

在 Hive 3.0.0及以上版本中（在低版本中需要通过添加 Jar 包实现），内置了序列化 JSON 内容数据的包 JsonSerDe，在建表时指定序列化的格式，使用过程中就可以直接获取到 JSON 文件中的内容，无需进行手动解析操作。

在 hive-site.xml文件中指定 Hive 表的序列化与反序列化器 SerDe：

<property>
    <name>metastore.storage.schema.reader.impl</name>
    <value>org.apache.hadoop.hive.metastore.SerDeStorageSchemaReader</value>
</property>

添加完成后重启 Hive 服务，例如元数据库 metastore或者 hiveserver2远程连接。

示例

我们先进入 HDFS 上创建一个 JSON 目录文件，存储一条 JSON 数据用于测试：

{

"database":"maxwell","table":"bootstrap","type":"insert","ts":1683629964,"xid":395746,"commit":true,"data":{

"id":8,"database_name":"school","table_name":"test2","where_clause":null,"is_complete":0,"inserted_rows":0,"total_rows":0,"created_at":null,"started_at":null,"completed_at":null,"binlog_file":null,"binlog_position":0,"client_id":"maxwell","comment":null}}

注意：文件中存储的 JSON 串必须是一行一条，不能手动跨越多行，不能格式化后存储，否则会引起 SerDe 解析异常：

java.io.IOException: org.apache.hadoop.hive.serde2.SerDeException: org.codehaus.jackson.JsonParseException: Unexpected end-of-input: expected close marker for OBJECT (from [Source: java.io.ByteArrayInputStream@73c91482; line: 1, column: 0])

这里在 HDFS 上创建了目录 /json_dir，其中存储了 JSON 文件 json_file.txt。

下面在 Hive 中创建表并对其进行解析：

drop table if exists json_test;
-- 其中定义的字段名对应 JSON 文件中的 KEY
-- 如果存在嵌套 JSON 子串，则需要使用结构体来进行定义
create table json_test(
    `database` string,
    `table` string,
    `type` string,
    `ts` string,
    `xid` bigint,
    `commit` string,
    `data` struct<id:bigint,database_name:string,table_name:string>)
row format serde 'org.apache.hadoop.hive.serde2.JsonSerDe'
stored as textfile
location '/json_dir'; -- 指定 JSON 文件的存储目录

查询字段内容：

select * from json_test;

如果想要获取嵌套 JSON 子串中的内容也很简单，如下所示：

select
    data.id,
    data.database_name,
    data.table_namefrom json_test;

序列化与反序列解析 JSON 文件实战用的更多，更加方便快捷。

文章标签：

关键词：

7天前

存储JSONJavaScript

【chat-gpt问答记录】python将数据存为json格式和yaml格式

zcongfly

2211

一只大鸽子

12天前

存储JSONJavaScript

使用Python处理JSON格式数据

一只大鸽子

2133

温轻舟

3天前

XML数据采集前端开发

五：爬虫-数据解析之xpath解析

本篇文章主要讲述了数据解析中的xpath解析，及相对路径的定位语法。最后以爬取豆瓣top250首页作为示例总结

温轻舟

1955

yuanzhengme

10天前

JSONJavaScript前端开发

js将json字符串还原为json

【6月更文挑战第15天】js将json字符串还原为json

yuanzhengme

1744

三分钟热度的鱼

9天前

JSON关系型数据库MySQL

实时计算 Flink版产品使用问题之在使用CDAS语法同步MySQL数据到Hologres时，如果开启了字段类型宽容模式，MySQL中的JSON类型会被转换为什么

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

9022

愿天堂没有BUG（公众号同名）

11天前

JSONAPI数据格式

如何用 Python 的 requests 库发送 JSON 数据的 POST 请求

使用 requests 库发送 JSON 数据的 POST 请求是一个非常简单且实用的操作。通过将目标 URL 和 JSON 数据传递给 requests.post 方法，你可以轻松发送请求并处理响应。本篇文章介绍了从安装 requests 库，到发送 JSON 数据的 POST 请求，再到处理响应的整个流程。希望这篇文章能帮助你更好地理解并应用这个强大的 HTTP 请求库。

愿天堂没有BUG（公众号同名）

1511

做梦都在改BUG

12天前

XML数据格式Python

Python使用xpath对解析内容进行数据提取

在前面的文章当中，已经教大家如何去获取我们需要的数据原文内容，今天就介绍一个用于提取所需数据的方法之一xpath。在后续会讲解bs4(beautifulsoup),re正则表达式。

做梦都在改BUG

1411

JavaPub

11天前

JSONGo数据格式