在Hive中,collect_set函数用于将一个列中的所有不重复的值收集到一个数组中。它的基本语法如下:
SELECT collect_set(column_name) FROM table_name;
其中,column_name是要收集不重复值的列名,table_name是数据表的名称。
例如,假设我们有一个名为employee的表,包含一个名为department的列,我们想要收集所有不重复的部门名称,可以使用以下查询:
SELECT collect_set(department) FROM employee;
这将返回一个包含所有不重复部门名称的数组。