在Hive中,可以使用DISTINCT
关键字来实现去重操作。以下是一个简单的示例:
假设我们有一个名为sales_data
的表,其中包含以下列:id
(唯一标识符),product_id
(产品ID)和quantity
(销售数量)。
CREATE TABLE sales_data (
id INT,
product_id INT,
quantity INT
);
现在,我们想要查询每个产品的总销售数量,但要去除重复的产品ID。可以使用DISTINCT
关键字实现这一目标:
SELECT product_id, SUM(quantity) as total_quantity
FROM sales_data
GROUP BY product_id;
这个查询将返回每个产品ID及其对应的总销售数量,重复的产品ID将被去除。