Hive

hive中collect_set函数有什么作用

小亿
101
2024-04-03 09:48:48
栏目: 大数据

collect_set是Hive中的一个聚合函数,其作用是将一组列中的值收集成一个数组,并且自动去除数组中的重复元素。这个函数对于进行数据去重并查看某一列中有哪些不同的值特别有用。

1、基本语法

COLLECT_SET(column_name)

2、示例

假设有一个表orders,它有两列:order_idproduct_id

order_id product_id
1 A
1 B
1 A
2 A
2 C

如果你想要查看每个order_id购买了哪些不同的product_id,可以使用collect_set函数:

SELECT order_id, collect_set(product_id) AS products
FROM orders
GROUP BY order_id;

这条查询可能会返回类似下面的结果:

order_id products
1 [“A”, “B”]
2 [“A”, “C”]

注意,由于collect_set自动去除了重复项,所以即便order_id为1的订单中有两次产品A,结果中只显示了一次。

3、注意事项

0
看了该问题的人还看了