Latest web development tutorials

Redis HyperLogLog

Redis 在2.8.9 版本添加了HyperLogLog 結構。

Redis HyperLogLog 是用來做基數統計的算法,HyperLogLog 的優點是,在輸入元素的數量或者體積非常非常大時,計算基數所需的空間總是固定的、並且是很小的。

在Redis 裡面,每個HyperLogLog 鍵只需要花費12 KB 內存,就可以計算接近2^64 個不同元素的基數。 這和計算基數時,元素越多耗費內存就越多的集合形成鮮明對比。

但是,因為HyperLogLog 只會根據輸入元素來計算基數,而不會儲存輸入元素本身,所以HyperLogLog 不能像集合那樣,返回輸入的各個元素。


什麼是基數?

比如數據集{1, 3, 5, 7, 5, 7, 8}, 那麼這個數據集的基數集為{1, 3, 5 ,7, 8}, 基數(不重複元素)為5。 基數估計就是在誤差可接受的範圍內,快速計算基數。


實例

以下實例演示了HyperLogLog 的工作過程:

redis 127.0.0.1:6379> PFADD w3bigkey "redis"

1) (integer) 1

redis 127.0.0.1:6379> PFADD w3bigkey "mongodb"

1) (integer) 1

redis 127.0.0.1:6379> PFADD w3bigkey "mysql"

1) (integer) 1

redis 127.0.0.1:6379> PFCOUNT w3bigkey

(integer) 3

Redis HyperLogLog 命令

下表列出了redis HyperLogLog 的基本命令:

序號 命令及描述
1 PFADD key element [element ...]
添加指定元素到HyperLogLog 中。
2 PFCOUNT key [key ...]
返回給定HyperLogLog 的基數估算值。
3 PFMERGE destkey sourcekey [sourcekey ...]
將多個HyperLogLog 合併為一個HyperLogLog