Databricks SQL 支持多种窗口函数,这些函数可以用于分析和处理数据
- ROW_NUMBER():为每一行分配一个唯一的数字,根据 ORDER BY 子句中指定的列进行排序。
- RANK():计算每一行相对于其他行的排名,并为具有相同值的行分配相同的排名。
- DENSE_RANK():与 RANK() 类似,但在排名时不会跳过任何数字。
- NTILE():将结果集中的行分布到指定数量的组中,每组的大小相等(或接近相等)。
- LAG():返回结果集中当前行之前的指定偏移量的行的值。
- LEAD():返回结果集中当前行之后的指定偏移量的行的值。
- FIRST_VALUE():返回窗口中第一个行的值。
- LAST_VALUE():返回窗口中最后一个行的值。
- NTH_VALUE():返回窗口中指定偏移量的行的值。
- CUME_DIST():计算当前行的累积分布。
- PERCENT_RANK():计算当前行的百分比排名。
要使用窗口函数,需要在 SELECT 语句中添加 OVER 子句,该子句定义了窗口函数应用于哪些行和列。例如:
SELECT id, value, ROW_NUMBER() OVER (ORDER BY value DESC) as row_number
FROM my_table;
这个查询将按照 value
列降序排列,并为每一行分配一个唯一的 row_number
。