论云上自动化运维级其应用
云上自动化运维是传统IT运维和DevOps的延伸,通过云原生架构实现运维的再进化。云上自动化运维可以有效帮助企业降低IT运维成本,提升系统的灵活度,以及系统的交付速度,增强系统的可靠性,构建更加安全、可信、开放的业务平台。

请围绕“云上自动化运维及其应用”论题,依次从以下三个方面进行论述:
1.概要叙述你参与运维的软件项目以及你在其中所承担的主要工作。
2.请简要描述云上自动化运维(如CloudOps)的主要衡量指标。
3.具体阐述你所参与的项目是如何进行云上自动化运维的。

【正确答案】

CloudOps 的定义与主要衡量指标

CloudOps 是传统IT 运维和 DevOps 的延展,通过云原生架构实现运维的再进化,充分帮助企业降低IT 运维成本、提升交付速度和系统灵活敏捷度、增强系统可靠性,构建更加安全可信开放的业务平台。
DevOps 已经在组织文化、产品、流程和工具有比较详细的定义,即通过敏捷组织和高效的持续集成持续发布,实现业务高质量的快速交付。
下面从公共云上如何进行自动化运维和自助服务的角度,着重梳理了衡量 CloudOps 成熟度的五大维度:
自动化能力
云计算核心就是自动化的运维能力,通过软件定义计算、存储、网络,来实现高级的可编程能力,从而避免人工配置的错误,充分实现可定制的自动化能力。而公有云的服务模式要求云厂商提供的云产品和云服务都必须是统一标准的,即所有云产品和云服务都可以通过 OpenAPI 进行调用从而实现完全自动化的能力。
弹性能力
云计算另外一个巨大技术红利就是弹性能力,针对计算、网络、存储、安全等基础资源,充分的发挥资源池化和分时复用的价值,通过弹性能力帮助客户应对业务的高峰,充分降低社会成本和企业运营的 1T成本,提升资源的利用率,可以极速实现资源到应用的水平或者垂直升级,通过秒级到分钟级扩缩容能力,完成计算力的创建和释放。
高可用能力
云计算天生就是为提升可靠性和可用性而设计的: 通过大规模数据中心、多数据中心技术,实现数据中心同城灾备,通过对硬件层的虚拟化,来降低和规避物理硬件故障对客户的影响,通过成熟高可用的服务来降低系统的复杂性。为了进一步提升应用的可观测性和问题的排查能力,云平台还会提供比较多的自助服务来做问题的排查和解决。
安全和合规能力
云上的安全涉及多方面,包括底层技术设施和应用层的。这里主要讨论跟底层资源相关的。首先第一个便是网络安全。区别于传统的 DC,云计算为了对租户进行隔离,一般会构建私有网络或者专有网络,通常我们称为 VPC (Virtual Private Network) 。VPC 相较传统网络有更好的灵活性、易用性和安全性,并且暴露了更多的能力来提升网络扩展性。它允许用户按需规划、定义自己的网段划分和路由规则,将传统的路由器交换机抽象成软件,并暴露给最终用户使。VPC 良好的扩展性,让用户能够构建简单可信的网络配置,实现企业级复杂的网络环境。对于 VPC 的规则设置和配置,都将大大影响网络安全性。
另外,DevOps 中操作审计和追踪是非常重要的能力,在 CloudOps 中亦然,云计算平台一般也会提供相应的为您提供面向资源和操作的配置历史追踪、配置合规审计等能力,帮助客户轻松实现基础设施的自主监管,确保持续性合规。
成本和资源量化管理
云提供了大规模的资源创建和变配策略,也提供了多种多样的付费和计费手段以及方便灵活的变配方法,如何选择合适的资源规格和付费方式是非常重要的,由于其方便灵活的特性,往往会有类似停机不收计算类资源费用,以及折扣非常低的抢占式实例,特别是按需创建资源和关停不需要的计费资源,需要我们有良好的成本和资源量化管理习惯和能力。

【答案解析】