
课程咨询: 400-996-5531
投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的企业都引入了云计算等互联网技术,而本文我们就通过案例分析来简单了解一下,云原生容器面对的挑战与解决方案。
1、华为云云原生容器年复合增长快,需要维护的站点和k8s集群多,复杂的海量客户应用场景给运维工作带来巨大挑战。
2、云原生便捷的快速部署能力、可伸缩性使得用户业务容器、集群结构等无时无刻不在变化之中,单局点节点变化非常快。
3、云原生社区丰富的应用实践以及容器开放的部署方式,用户易出现配置类错误,导致故障发生。
4、面对客户不同的业务场景、集群类型,当前社区在监控准确率、故障快速定位恢复等通用运维能力尚无有效的解决方案。
解决思路:
1、现网客户请求事件同比增长,单纯依赖人力的运维已无法支撑业务的快速增长,以软件工程的手段解决现网运维中的实际困难,构建贴合业务特征的自动化运维平台。
2、将业务形态与业界开源方案相结合,构建可靠、可信的租户监控能力
3、打通运维能力产品化落地路径,将实践可靠的运维能力固化到产品中,提升产品易用性以及客户自运维能力。
智能运维能力
故障预防
“故障预防"在确定性运维中是很重要的一环,可以有效避免客户业务发生故障。风险识别在故障预防中极为有效的一种手段,客户业务的高可用部署、容器的资源配置合理性、依赖各服务的使用配额、集群和节点分配和使用率等,均会导致业务存在潜在风险,完备、及时的有效风险识别可消除客户业务隐患,防止应用故障。
解决思路和措施:
a.结合历史现网故障以及容器业务架构,梳理关键风险场景和有效监控指标。
b.基于经验、历史故障场景、结合租户历史行为,构建风险指标判断识别系统,自动检测租户容器场景集群风险项,为集群构建集群画像,识别集群风险。
c.风险识别能力实现原子化对接TSC平台,赋能客户经理。
d.风险识别联动周边,推动产品设计改进、引导租户提前消除、支撑SRE风险收编以及故障快速恢复。
现网效果:
周级别自动识别全网集群风险、分钟级单集群深度自动巡检,数据入湖并被TSC订阅消费。
监控故障发现
监控发现”旨在先于客户发现,在底层ECS故障、网络故障发生时,及时发现故障,及时自愈或通知到客户,尽大可能短时间止损,减少客户的损失。另一方面,在真正客户业务受损时,监控要做到快速判断故障影响面,做到应用链路透视监控,可以辅助快速定位至故障点。
解决思路和措施:
历史事件+业务架构,确定监控场景:通过对历史现网事件负向分析和容器场景故障模式正向分析,梳理确定容器监控场景。
从0到1构建监控能力:构建容器prometheus监控能力,实现从集群、租户、站点三级视图的监控能力,并完成1-N个站点的快速复制和覆盖。
引入基于孤立森林的智能检测算法以及租户面集群容器状态细粒度监控等不断提升监控覆盖率和准确度。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!请读者仅作参考。更多内容请加抖音达内三江区域学习了解。