1 亿条 Redis key 要怎么高效统计?你想到的方案够快吗?
- 工作日记
- 3小时前
- 34热度
- 0评论
给你1亿的Redis key,如何高效统计?
前言:为什么KEYS命令是定时炸弹?
当老板突然要求统计Redis中1亿条key时,很多工程师的第一反应是执行KEYS 命令。这个看似简单的操作却可能引发灾难性后果:某电商平台曾因误用该命令导致200+节点集群瘫痪,直接损失超百万。
Redis的单线程模型是其高性能的核心,但也是最大的软肋。KEYS命令时间复杂度为O(N),当遍历1亿条key时,即使每个key处理耗时0.1微秒,总阻塞时间将达10秒!这会导致所有后续命令排队等待,引发服务雪崩。
高效统计五大核心方案
1. SCAN命令:安全遍历的黄金标准
通过游标分批次扫描,单次仅返回少量key(默认10个),有效避免阻塞:
cursor = 0 total = 0 loop { cursor, keys = SCAN cursor MATCH total += len(keys) } until cursor == 0
优势对比:
命令 | 时间复杂度 | 阻塞风险 | 内存消耗 |
---|---|---|---|
KEYS | O(N) | 极高 | 全量加载 |
SCAN | O(N) | 无 | 批次加载 |
2. DBSIZE:秒级响应的秘密武器
Redis内置的DBSIZE命令时间复杂度O(1),直接返回当前数据库key总数。但需注意:
· 仅统计当前DB
· 不包含过期key
· 集群环境需累加所有节点
3. HyperLogLog:亿级数据误差0.8%
对于近似统计场景,使用PFADD/PFCOUNT组合:
foreach key in ALL_KEYS: PFADD hyperloglog_key $key total = PFCOUNT hyperloglog_key
实测1亿key统计仅消耗12KB内存,误差率控制在0.81%以内。
4. Lua脚本:原子化统计利器
通过脚本在服务端完成统计,避免网络开销:
local cursor = tonumber(ARGV[1]) local result = redis.call("SCAN", cursor, "COUNT", 1000) return result
建议参数:
· COUNT值设置1000到5000
· 执行间隔50ms以上
5. 自定义统计模块
在Redis内核层增加统计指令:
// 注册新命令 struct redisCommand keysstat = { "KEYSTAT", keyStatCommand, 2, "readonly", 0,0,0,0,0,0 }; // 实现逻辑 void keyStatCommand(redisClient c) { dictEntry de; unsigned long total = 0; dictIterator di = dictGetSafeIterator(server.db[0].dict); while((de = dictNext(di)) != NULL) { total++; } addReplyLongLong(c,total); }
性能优化实战技巧
管道技术提速300%
通过Pipeline批量发送命令:
Jedis jedis = new Jedis("redis://127.0.0.1:6379");
Pipeline p = jedis.pipelined();
for(int i=0;i<100;i++){
p.scan(cursor).getResult();
}
List results = p.syncAndReturnAll();
实测1亿key统计时间从120分钟降至35分钟
集群分片处理方案
- 通过CLUSTER NODES获取所有主节点
- 对每个节点创建独立连接
- 并行执行SCAN/DBSIZE
- 合并统计结果
多线程加速方案
ExecutorService executor = Executors.newFixedThreadPool(16);
List> futures = new ArrayList<>();
for(int i=0;i<16;i++){
futures.add(executor.submit(() -> {
// 每个线程负责特定slot范围
long count = 0;
// ...扫描逻辑...
return count;
}));
}
long total = futures.stream().mapToLong(f -> f.get()).sum();
方案对比与选型建议
方案 | 耗时 | 精度 | 适用场景 |
---|---|---|---|
SCAN命令 | 5到30分钟 | 100% | 精确统计 |
DBSIZE | 1秒 | 99.9% | 快速估算 |
HyperLogLog | 2到5分钟 | 99.2% | 趋势分析 |
黄金准则:
· 精确统计选SCAN+多线程
· 实时监控用DBSIZE
· 大数据分析用HyperLogLog
总结
面对亿级Redis key统计,需要根据业务场景选择合适方案。通过SCAN命令分批次处理、管道技术优化、多线程并行等组合策略,可将原本需要数小时的统计任务压缩到分钟级完成。记住:永远不要在生产环境使用KEYS命令,这是保障Redis集群稳定的第一原则。