Doris-FE 节点如何安全滚动重启?操作流程你清楚吗?
- 工作日记
- 9小时前
- 29热度
- 0评论
Doris-FE节点安全滚动重启操作指南
为什么需要安全滚动重启?
在Doris集群运维过程中,FE节点作为系统的元数据管理中心和查询入口,其稳定性直接影响整个集群的可用性。当遇到内存无法释放、JVM参数调优或版本升级等场景时,滚动重启既能保证服务连续性,又可避免因全量重启导致的元数据不一致风险。本文将以实操经验详解安全重启流程。
安全滚动重启四步操作流程
1. 前置检查与准备
确认集群包含至少3个FE节点(保障高可用)
使用 show frontends
检查所有节点状态为Alive
重点记录当前Master节点(最后重启)
2. 逐个节点重启操作
操作顺序:
① Follower节点 → ② Observer节点 → ③ Master节点
具体步骤:
1. 停止目标节点:
supervisorctl stop doris_fe
2. 修改配置文件(如需调优参数):
示例内存参数:
-XX:InitiatingHeapOccupancyPercent=25%
3. 启动服务:
supervisorctl start doris_fe
3. 健康状态验证
执行show frontends
确认节点重启后角色状态
检查curl http://FE_IP:8030/api/health
返回正常
观察日志fe.log
无持续报错
4. 服务连续性验证
使用mysql-client
执行测试查询
检查BE节点心跳状态
验证数据导入/查询任务持续运行
关键注意事项(加粗重点)
1. 必须保持半数以上FE节点在线(3节点集群最多同时停1台)
2. 参数修改后要先停服再启动,避免配置不生效
3. 主节点重启前需确认新的Master选举完成
4. 滚动间隔建议5到10分钟,确保元数据同步
典型问题解决方案
内存释放异常处理
若出现内存无法回收情况:
1. 在fe.conf
中添加:
-XX:+UseG1GC
-XX:InitiatingHeapOccupancyPercent=25
2. 配合滚动重启生效配置
节点失联应急处理
当节点未正常恢复时:
1. 检查9030/8030端口连通性
2. 查看/opt/doris/fe/log/
下的最新日志
3. 尝试手动启动:
sh bin/start_fe.sh --daemon
最佳实践建议
配置ZooKeeper监控实时感知节点状态
建立预发环境验证重启方案
定期执行metadata_checkpoint
减少恢复时间
重要操作前使用admin set replia status
备份元数据
通过标准化滚动重启流程,可将单节点重启时间控制在2分钟内,整体集群影响降至毫秒级抖动。建议配合监控系统进行自动化状态感知,当系统版本升级至v1.2+后,可使用内置的滚动升级插件进一步简化操作流程。