
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着互联网的不断发展,越来越多的企业都在关注软件运维方面的问题,而今天我们就通过案例分析来了解一下,软件运维程序员需要具备哪些能力。
随叫随到(OnCall)是维护服务健康的大因素。如果服务发生实时停机事故,随叫随到可以尽快缓解这一情况。否则,事件拖得越久,后果就会越严重。例如,终用户的影响可能是无法吸引新用户,从而导致收入损失。重要的是永远不要危害产品,以免用户停止使用产品。
当内部客户的服务或工作表现不佳时,他们可以通过通信平台(如Slack)发起呼叫请求。大多数情况下,随叫随到是由监控系统传呼的。监控系统允许工程师通过关键指标(如成功率、读写延迟、流量、内存空间等)来跟踪服务的性能。因此,随叫随到可以全面了解他们的服务中正在发生的事情,从而可以更快地调试问题。
在这些监控系统中,可以为关键指标设置一个阈值,当超过这个阈值时,随叫随到将会被传呼。然而,这些阈值的设置,却有可能是一把双刃剑。如果阈值设置不当的话(即设置过低或过高),随叫随到可能会被大量传呼所淹没。阈值需要设置为只有在服务遇到问题时才会突破的值。同样,工程师也不应过于热心,为每个指标设置一个阈值。你需要警惕的是那些可以采取行动的指标,这些指标如果不能迅速解决的话,可能会产生毁灭性的影响。
减轻随叫随到的负担并改善服务健康状况的可行解决方案是自动化。如果某个问题不断地重复出现,并且无需人工干预即可解决,那么就可以采用自动化。自动化系统可能会产生很大的影响,但如果不实施保障措施,可能会产生不良后果。例如,在重新启动有状态服务的实例时,不要同时重新启动所有实例,这一点很重要。
自动化系统甚至可以与监控系统集成。只要达到特定指标的阈值,监控系统就可以触发自动化。
为了防止人工操作造成问题和事故,必须保持高度的操作规范化。解决这个问题的一种方法是制定一个文档完整的运行手册,其中列出了每个手动操作的详细步骤。重要的是,另一个团队成员可以验证操作员的操作过程,特别是在已知操作会导致问题的情况下。
50%的软件工程都是维护服务的健康。这不是工作中微不足道的一部分。要知道,软件工程并不仅仅是编写代码。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。