ClickHouse 数组的相关操作函数,一网打尽(十)
ClickHouse 数组的相关操作函数,一网打尽
本文来源: ( https://www.cnblogs.com/traditional/tag/ClickHouse:一款速度快到让人发指的列式存储数据库/ )
楔子
在一般的关系型数据库,相信很多人都不怎么使用数组这个结构,如果真的需要数组,那么会选择将其变成数组格式的字符串进行存储。但在 ClickHouse 中,数组的使用频率是非常高的,因为它内置了大量和数组有关的函数。
1 | SELECT version(); |
当前的 ClickHouse 是 21.7.3.14 版本,关于数组的函数有 48 个,通过这个 48 个函数,我们可以对数组进行各种骚操作。当然也有一些函数不是专门针对数组的,但是可以用在数组身上,我们就也放在一起说了,下面就来依次介绍相关函数的用法。
empty:判断数组是否为空,如果一个数组不包含任何元素,返回 1;否则返回 0
1 | SELECT empty([1, 2, 3]), empty([]); |
empty 不仅可以检测数组是否为空,还可以检测字符串。
1 | SELECT empty('satori'), empty(''); |
notEmpty:判断数组是否不为空,如果一个数组包含至少一个元素,返回 1;不包含任何元素,则返回 0
1 | SELECT notEmpty([1, 2, 3]), notEmpty([]); |
length:返回数组的长度,该函数也可以返回字符串的长度
1 | SELECT length([]), length([1, 2, 3]), length('satori'), length(''); |
emptyArrayUInt8、emptyArrayUInt16、emptyArrayUInt32、emptyArrayUInt64、emptyArrayInt8、emptyArrayInt16、emptyArrayInt32、emptyArrayInt64、emptyArrayFloat32、emptyArrayFloat64、emptyArrayDate、emptyArrayDateTime、emptyArrayString:创建一个指定类型的空数组
1 | -- 数组元素的类型为 nothing,因为没有指定任何元素 |
range:类似于 Python 中的 range,看测试用例
array:也是创建一个数组,和直接使用方括号类似。但是 array 函数要求必须至少传递一个常量,否则就不知道要创建哪种类型的数组。如果想创建指定类型的空数组,那么使用上面的 emptyArray* 系列函数即可
1 | -- 不管是使用 array 创建,还是使用 [] 创建,里面的元素都必须具有相同的类型,或者能够兼容 |
arrayConat:将多个数组进行合并,得到一个新的数组
1 | -- SELECT 中起的别名可以被直接其它字段所使用 |
arrayElement:查找指定索引的元素,索引从 1 开始,也可以通过方括号直接取值;另外也支持负数索引,-1 代表最后一个元素
1 | -- 索引从 1 开始,所以 arr[20] 就表示第 20 个元素,也就是 19 |
has:判断数组里面是否包含某个元素,如果包含,返回 1;不包含,返回0
1 | WITH [1, 2, Null] AS arr SELECT has(arr, 2), has(arr, 0), has(arr, Null); |
hasAll:判断数组里面是否包含某个子数组,如果包含,返回 1;不包含,返回0
注意:空数组是任意数组的子集;Null 会被看成是普通的值;数组中的元素顺序没有要求;1.0 和 1 被视为相等
hasAll([], []):返回 1
hasAll([1, Null], [Null]):返回 1
hasAll([1.0, 2.0, 3.0], [2.0, 3.0, 1.0]):返回 1,因为元素顺序无影响,并且 1.0 和 1 被视为相等
hasAll(['a', 'b'], ['a']):返回 1
hasAll(['a', 'b'], ['c']):返回 0
hasAll([[1, 2], [3, 4]], [[1, 2], [3, 4]]):返回 1,嵌套数组也是可以的
在 has 函数里面也有嵌套数组,但是维度不同。比如 has(a, b):如果 a 是维度为 N 的数组,那么 b 必须是维度为 N - 1 的数组;而 hasAll 则要求 a 和 b 的维度必须相同。
1 | WITH [[1, 2], [11, 22]] AS arr, [[1, 2], [11, 22]] AS subset SELECT hasAll(arr, subset) |
hasAny:判断两个数组里面是否有相同的元素,只要有 1 个相同的元素,返回 1;否则,返回 0
1 | SELECT hasAny([1.0, 2.0], [1]), hasAny([Null], [1, Null]) |
hasSubstr:和 hasAll 类似,但是顺序有要求,hasAll(arr, subset) 要求的是 subset 中的元素在 arr 中都出现即可;但是 hasSubstr 函数则不仅要求 subset 中的元素在 arr 中都出现,并且还要以相同的顺序。举个栗子:
hasSubstr([1, 2, 3], [2, 3]):返回 1
hasSubstr([1, 2, 3], [3, 2]):返回 0
hasSubstr([[1, 2], [2, 1], [3, 2]], [[3, 2]]):返回 1
1 | -- 两个数组的维度必须相同 |
indexOf:查找某个元素第一次在数组中出现的位置,索引从 1 开始;如果不存在,则返回 0
1 | WITH [1, 2, 3, Null, 99] AS arr SELECT indexOf(arr, 100), indexOf(arr, 99), indexOf(arr, Null); |
arrayCount:查找一个数组中非 0 元素的个数,该数组类的元素类型必须是 UInt8,并且不能包含 Null 值。因为一旦包含 Null,那么类型就不是 UInt8 了,而是 Nullable(UInt8)
1 | SELECT arrayCount([1, 2, 3]), arrayCount([1, 2, 3, 4, 0]); |
此外 arrayCount 还有一种用法,就是接收一个函数和一个数组:
1 | WITH [1, 2, 3, 4, 0] AS arr |
ClickHouse 中的函数类似于 C++ 中的 lambda 表达式,x -> x + 1 相当于将 arr 中的每一个元素都加上 1,但结果得到整型是 UInt16,所以需要使用 cast 转成 UInt8,否则报错。另外,加上 1 之后就没有为 0 的元素了,所以返回的结果是 5。
countEqual:返回某个元素在数组中出现的次数
1 | WITH [1, 1, 1, 2, Null, Null] as arr SELECT countEqual(arr, 1), countEqual(arr, Null) |
arrayEnumerate:等价于先计算出数组的长度,假设为 N,然后返回 range(1, N + 1)
1 | SELECT arrayEnumerate([2, 2, 2, 2]); |
arrayEnumerateUniq:从数组的第一个元素开始,每重复一次就加 1
光说不好理解,直接看例子,然后画图说明:
1 | SELECT arrayEnumerateUniq(['a', 'a', 'c', 'b', 'c', 'a', 'b', 'b']); |
arrayEnumerateUniq 还可以接收多个数组,这些数据具有相同的长度,相信你已经知道它的作用了:
1 | SELECT arrayEnumerateUniq(['a', 'a', 'b', 'a'], [1, 2, 2, 1]); |
arrayPopBack:移除数组中的最后一个元素
1 | SELECT arrayPopBack([1, 2, 3]) |
显然它是可以被嵌套的:
1 | WITH [1, 2, 3] AS arr SELECT arrayPopBack(arrayPopBack(arr)) |
注意:对空数组使用 arrayPopBack 不会报错,得到的还是空数组。
arrayPopFront:移除数组中的第一个元素
1 | SELECT arrayPopFront([1, 2, 3]); |
和 arrayPopBack 一样,也可以被嵌套,并且对空数组使用也不会报错,还是得到空数组。
1 | WITH [1, 2, 3] AS arr SELECT arrayPopFront(arrayPopFront(arr)); |
arrayPushBack:从数组的尾部塞进一个元素
1 | SELECT arrayPushBack([1, 2, 3], 1); |
添加的时候记得类型要匹配,如果添加了 Null,那么数组会变成 Nullable。
arrayPushFront:从数组的头部塞进一个元素
1 | SELECT arrayPushFront(['a', 'b', 'c'], 'd'); |
添加的时候记得类型要匹配,如果添加了 Null,那么数组会变成 Nullable。
arrayResize:改变数组的长度
如果指定的长度比原来的长度大,那么会用零值从尾部进行填充
如果指定的长度比原来的长度大,那么会从尾部进行截断
1 | SELECT arrayResize(range(4), 7), arrayResize(range(4), 2); |
在填充的时候,也可以使用指定的值进行填充:
1 | SELECT arrayResize(range(4), 7, 66), arrayResize(range(4), 7, Null); |
arraySlice:返回数组的一个片段
arraySlice(arr, M):返回从索引为 M 开始以及之后的所有元素
arraySlice(arr, M, N):从索引为 M 的元素开始,总共返回 N 个元素
1 | SELECT arraySlice(range(1, 10), 3), arraySlice(range(1, 10), 3, 4); |
arraySort:对数据进行排序,然后返回
1 | SELECT arraySort([2, 3, 1]), arraySort(['abc', 'ab', 'c']); |
字符串会按照字典序排序返回,整型、浮点型、日期都会按照大小返回。
问题来了,如果我们希望按照字符串的长度排序该怎么办呢?所以 arraySort 还支持传递一个自定义函数:
1 | -- 按照数组中元素的长度进行排序 |
我去,这 ClickHouse 也太强大了吧,这简直不像是在写 SQL 了,都有点像写 Python 代码了,所以 ClickHouse 这么火不是没有原因的。
另外当出现空值或 NaN 的话,它们的顺序如下:
1 | -inf 普通数值 inf NaN Null |
所以 arraySort 如果接收一个参数,那么该参数必须是一个数组,然后 ClickHouse 按照默认的规则进行排序;如果接收两个参数,那么第一个参数是匿名函数,第二个参数是数组,此时 ClickHouse 会按照我们定义的函数来给数组排序;但其实 arraySort 还可以接收三个参数,第一个参数依旧是函数,然后第二个参数和第三个参数都是数组,此时会用数组给数组排序,举个栗子:
1 | -- 因为有两个数组,所以匿名函数要有两个参数,x 表示第一个数组、y 表示第二个数组 |
arrayReverseSort:对数据进行逆序排序,然后返回
该函数你可以认为它是先按照 arraySort 排序,然后将结果再反过来,举个栗子:
1 | SELECT arraySort(x -> -x, [1, 2, 3]) sort, arrayReverseSort(x -> -x, [1, 2, 3]) reverse_sort; |
指定了匿名函数,按照相反数进行排序,因为 -3 < -2 < -1,所示 arraySort 排序之后就是 [3, 2, 1],然后 arrayReverseSort 则是在其基础上直接返回,所以得到的还是 [1, 2, 3]。
至于其它用法和 arraySort 都是一样的,可以看做是在 arraySort 的基础上做了一次反转。不过有一点需要注意,那就是 Null 值和 NaN:
arraySort:-inf 普通数值 inf NaN Null
arrayReverseSort:inf 普通数值 -inf NaN Null
即使是 arrayReverseSort,NaN 和 Null 依然排在最后面。
arrayUniq:返回数组中不同元素的数量
1 | SELECT arrayUniq([1, 2, 3, 1, 4]); |
也可以传递多个长度相同的数组,会依次取出所有数组中相同位置的元素,然后拼成元组,并计算这些不重复的元组的数量,举个栗子:
1 | -- 相当于判断 arrayUniq( [('a', 1, 3), ('a', 1, 3), ('b', 2, 3)] ) |
arrayJoin:将数组展开成多行
1 | SELECT arrayJoin(range(1, 7)); |
如果出现了多个 arrayJoin ,那么会做笛卡尔积:
1 | SELECT arrayJoin([1, 2, 3]), arrayJoin([11, 22, 33]); |
提到了 arrJoin,那么就必须提一下 groupArray,这算是一个聚合函数,它和 arrayJoin 作用相反,将多行数据合并成数组。
1 | SELECT number FROM numbers(5); |
除了 groupArray,还有一个 groupUniqArray,从名字上看显然多了一个去重的功能。
1 | -- SELECT arrayJoin([1, 1, 2, 2, 3]) 会自动展开成多行 |
arrayDifference:计算数组中每相邻的两个元素的差值
1 | -- 第一个元素固定为 0,第二个元素为 3 - 1,第三个元素为 4 - 3,以此类推 |
arrayDistinct:对数组中的元素进行去重
1 | SELECT arrayDistinct([1, 1, 1, 2, 2, 3]); |
arrayEnumerateDense:返回一个和原数组大小相等的数组,并指示每个元素在原数组中首次出现的位置(索引都是从 1 开始)
1 | -- 22 首次出现在索引为 1 的位置、1 首次出现在索引为 2 的位置 |
arrayIntersect:接收多个数组,并取它们的交集
1 | SELECT arrayIntersect([1, 2], [2, 3], [3, 4]), arrayIntersect([1, 2], [2, 3], [2, 4]); |
arrayReduce:将一个聚合函数作用在数组上,举个栗子:
1 | SELECT arrayReduce('max', [1, 23, 6]), arrayReduce('sum', [1, 23, 6]); |
可能有人觉得直接用聚合函数不就好了,答案是不行的,因为这些聚合函数针对的都是多行结果集,而不是数组。
1 | -- 相当于只有一行数据,所以返回其本身 |
所以聚合函数针对的是多行,而不是数组,如果想用聚合函数,那么应该将数组给展开。或者使用这里的 arrayReduce,相当于将两步合在一起了。当然我们也可以不用 arrayReduce,因为 ClickHouse 为了数组专门提供了相应的操作,比如求数组中最大的元素可以使用更强大的 arrayMax,后面说。
arrayReduceInRanges:对给定范围内的数组元素应用聚合函数,光说不好解释,直接看例子:
1 | -- 会对数组中索引为 1 开始向后的 5 个元素进行 sum,结果为 15 |
arrayReverse:对数据进行逆序,然后返回;我们之前还介绍了一个 arrayReverseSort,它在逆序之前会先排序,而这里的 arrayReverse 只是单纯的逆序
1 | -- arrayReverse 和 reverse 作用相同 |
arrayFlatten:将数组扁平化
1 | -- arrayFlatten 也可以使用 flatten 代替 |
我们之前还介绍了一个 arrayConcat,可以对比一下两者的区别
1 | SELECT arrayConcat ([1, 2, 3], [11, 22, 33]); |
arrayCompact:从数组中删除连续重复的元素
1 | SELECT arrayCompact([2, 2, 1, 1, 1, 3, 3, Null, Null]); |
我们看到作用类似于之前介绍的 arrayDistinct,但两者还是有区别的。
1 | SELECT arrayDistinct([2, 2, 1, 1, 1, 3, 3, NULL, NULL]) |
我们发现 arrayDistinct 不包含 Null 值。
arrayZip:类似于 Python 中的 zip,直接看示例:
1 | SELECT arrayZip(['a', 'b', 'c'], [1, 2, 3], ['x', 'y', 'z']); |
arrayMap:对数组中每一个元素都作用相同的函数,根据函数的返回值创建一个新的数组,非常常用的一个功能。
1 | SELECT arrayMap(x -> (x, 1), ['a', 'b', 'c']); |
当然也可以作用嵌套数组:
1 | SELECT arrayMap(x -> arrayReduce('sum', x), [[1, 2, 3], [11, 22, 33], [33, 44, 55]]); |
也可以作用多个数组,这些数组的长度必须相等。此外,有多个数组,函数就要有多少个参数:
1 | -- 得到的是 [1 + 11 + 33, 2 + 22 + 44, 3 + 33 + 55] |
arrayFilter:对数组中每一个元素都作用相同的函数,如果函数返回值为真(非 0),则该元素保留,否则不保留。
1 | SELECT arrayFilter(x -> x > 5, [1, 4, 5, 7, 10]); |
arrayFill:对数组中每一个元素都作用相同的函数,如果函数返回值为真,则该元素保留,否则被替换为前一个元素。
1 | -- 2 会被替换成 4,1 会被替换成 5 |
arrayReverseFill:对数组中每一个元素都作用相同的函数,如果函数返回值为真,则该元素保留,否则被替换为后一个元素。注意:此时数组是从后往前扫描的
1 | -- 2 会被替换成 5,1 还是 1,最后一个元素不会被替换 |
arrayMin:返回数组中最小的元素
1 | WITH [11, 22, 8, 33] AS arr SELECT arrayMin(arr) v1, min(arrayJoin(arr)) v2, arrayReduce('min', arr) v3; |
arrayMin 里面还可以传递一个匿名函数:
1 | SELECT arrayMin(x -> -x, [11, 22, 8, 33]) |
会按照调用匿名函数的返回值进行判断,选择最小的元素,这里 33 在调用之后返回 -33,显然是最小值。但是这里有一个需要注意的地方,就是它返回的也是匿名函数的返回值。个人觉得应该返回 33 才对,应为我们指定函数只是希望 ClickHouse 能够按照我们指定的规则进行排序,而值还是原来的值,但 ClickHouse 这里设计有点莫测高深了。如果我们以字符串为例,那么会看的更加明显:
1 | SELECT arrayMin(x -> length(x), ['ab', 'abc', 'a']) v; |
我们看到居然返回了一个 1,我们的本意是想选择长度最短的字符串,但是返回的是最短字符串的长度,也就是返回的不是 ‘a’,而是 length(‘a’)。
arrayMax:返回数组中最大的元素
1 | WITH [11, 22, 8, 33] AS arr SELECT arrayMax(arr) v1, max(arrayJoin(arr)) v2, arrayReduce('max', arr) v3; |
也可以加上一个匿名函数,作用和 arrayMin 完全一样,并且返回的也是函数调用之后的结果。
arraySum:对数组求总和
1 | WITH range(1, 101) AS arr SELECT arraySum(arr), arrayReduce('sum', arr), sum(arrayJoin(arr)); |
同样可以加一个匿名函数:
1 | WITH range(1, 101) AS arr SELECT arraySum(x -> x * 2, arr); |
arrayProduct:对数组求总乘积
1 | SELECT arrayProduct([1, 2, 3, 4, 5]); |
同样可以加一个匿名函数:
1 | SELECT arrayProduct(x -> x + 1, [1, 2, 3, 4, 5]); |
arrayAvg:对数组取平均值
1 | WITH range(1, 101) AS arr SELECT arrayAvg(arr), arrayReduce('avg', arr), avg(arrayJoin(arr)); |
同样可以加一个匿名函数:
1 | WITH range(1, 101) AS arr SELECT arrayAvg(x -> x * 2, arr); |
arrayCumSum:对数组进行累和
1 | -- 第一个元素不变 |
同样可以加一个匿名函数:
1 | -- 第一个元素不变 |
小结
以上就是关于 ClickHouse 数组的一些函数操作,可以说是非常强大了,不光是功能强大,用起来也很舒服,仿佛有种在写 Python 代码的感觉。当然以上并不是关于数组的全部操作(绝大部分),但说实话已经够用了,即使你当前的需求,某一个函数不能解决,那么也能多个函数组合来解决。比如我们想要计算两个数组中相同位置的元素的差,那么就可以这么做:
1 | -- 一个函数即可解决 |
再比如,计算数组中每个元素减去上一个元素的值,由于第一个元素上面没有值,那么设为空:
1 | -- 我们只需要选择 arr 的前 N - 1 个元素,然后再在头部插入一个 Null,[Null, 11, 22, 33, 44, 55] |
显然即使是复杂的需求,也可以通过多个函数组合完成,怎么样,是不是有点酷呢?ClickHouse 内建了很多的函数,这些函数给我们一种仿佛在用编程语言写代码的感觉。