云监控入门

2018-01-08 17:48:39 浏览数 (1)

云监控是一个对基于云的服务、应用程序与基础架构进行评估、监控与管理的工作。公司利用各种应用程序监控工具来监视基于云的应用程序。下面我们来看看它是如何工作的,以及使用它走向成功的必经之路。

云监控的类型

有多种类型的云服务要监控。云监控不仅要监控像在AWS或Azure上托管的服务器。对于企业来说,他们最关心的还是监控他们正在使用的云服务(如微软的Office 365等)。

SaaS - 类似Office 365与Salesforce等服务;

PaaS - 对开发人员友好的服务,如SQL数据库,缓存,存储等;

IaaS - 由Azure,AWS,Digital Ocean等云提供商托管的服务器;

FaaS - 新的无服务器(serverless)应用程序,如AWS Lambda和Azure Functions;

应用程序托管(Application hosting) - Azure App Services与Heroku等服务;

在上述应用中,很多情况下我们都可以通过传统的性能监视工具进行监视。然而,云监控的出现又对这些基础的监控工具提出了新的独特要求。

云监控的工作方式

“云”是指一组网络托管的应用程序。与传统的程序不同,这些程序并不通过硬盘,而是通过Internet存储和访问数据。

  • 对于普通消费者来说,使用互联网查看网页、访问诸如Gmail等邮件服务以及使用Dropbox存储文件即是典型的云计算。
  • 企业其实也使用相同的方式,但他们还可以通过软件即服务(SaaS)来订够商业应用程序或租用服务器来托管专有应用程序,来向消费者提供服务。

云监控通过一系列工具去监控服务器本身及其资源用量,以及正在其上执行任务的应用。这些工具通常来自于两方面:

  1. 云服务提供商自带 - 其最大的特点就是简单,因为这些工具就是云服务的一部分。它们不需要安装,而且还是和云是无缝整合的。
  2. 独立SaaS供应商提供 - 虽然SaaS供应商可能与云提供商不同,但这并不意味着这两种服务就无法相互取长补短。事实上,这些供应商往往在管理性能和成本方面拥有一技之长。

云监控工具会查找那些可能导致阻止或限制向客户提供服务的问题。通常来说,这些工具能够提供有关性能、安全性与客户行为相关的数据:

  • 网络安全(Cybersecurity)是保证网络免受攻击所不可缺少的一部分。 IT团队可以使用它来及早发现泄露与漏洞,并在局势失控之前保护网络安全。
  • 通过定期进行测试,有关单位可以快速发现云上的错误并将其纠正,减轻其对性能和功能的损害,从而改善客户体验,促进销售并留住回头客。
  • 速度 - 正所谓功能与用户体验是客户满意度的主要动力,我们可以通过监控速度并产生相关数据来帮助有关单位优化网站和应用程序。

如果有关单位经常且预警性地监控云服务,那么他们就可以通过这些监控数据排除问题,并及时地对这些问题进行修复(即使不会立马就修好 ╮(╯▽╰)╭ )。

云端监控的好处

云监控工具的主要优势包括:

  • 基础设施和相关配置是现成的,且其安装过程也简单快捷。
  • 专用工具包括硬件都是由主机维护的。
  • 这些解决方案适用于各种规模大小的公司或组织。所以如果云的工作量增加,合理的云监控工具可以实现无缝扩展。
  • 基于订购的解决方案可以降低成本。它们不需要启动资金或基础设施的支出,并且维护成本可以在多个用户之间平摊。
  • 对于企业来说,云资源本身不存在于他们自己的服务器和工作站上。因此当局部问题影响企业正常工作时,云并不会受到影响。
  • 许多工具可用于多种设备之间,如台式机,平板电脑和电话上。这使得相关单位可以从任何可以访问Internet的位置监控这些应用程序和服务。

实现云监控

任何云相关的企业和公司都需要将云监视作为优先事项并对其进行长远规划。同时,规划应明确要解决的问题及目标,例如:

  • 明确指标和目标事件 - 到底需要监控那些目标事件?这是一个问题。其实,并非所有能被监测的东西都需要监测并报告,关键是要监控那些涉及到云服务底线的指标。
  • 使用一个平台报告所有数据 - 除了要监控的云服务之外,有关企业和公司可能还需要监控他们自己的设备。因此,他们需要一个能够在单一平台上报告不同数据来源的解决方案,同时这个方案应能够根据多方面参数统一计算出一个综合性能。
  • 监控云服的使用与相应的费用 - 可扩展性是云服务的一个的关键特点,而使用量的增加必然带来的是费用的增加。鲁棒性好的监控解决方案需要跟踪有关单位的对云的使用情况,并据此得到相应的费用。
  • 监控用户体验 - 有关公司或组织往往都需要了解他们云应用的用户体验。因此,我们需要监控如响应时间与使用频率等指标以了解云应用的整体性能。
  • 数据触发 - 如果应用的负载超过或低于某一个事先定好的门限,那么正确的做法是相应地增加或减少服务器的数量,以保持整个系统的效率与性能。
  • 分离与汇总数据 - 有关公司或组织往往需要分开存储应用与服务产生的监控数据,同时这些数据还需要能够再被汇总到一起以便让那些最关心它们的人访问。
  • 失败是成功之母 - 通过一次中断或数据泄露这样的异常失败来测试你的工具,同时当系统达到某个预定门限时评估你的警告系统是否可靠。

更多资源与教程

可以通过下面的链接获得更多相关信息与技巧。

  • 6 Reasons Cloud Monitoring Is Different Than Server Monitoring
  • Guide to Cloud Monitoring Tools and Best Practices
  • 4 Best Practices for Monitoring Cloud Infrastructure You Don’t Own
  • Designing and Implementing Cloud Governance: Cloud, and Cloud Governance are Emerging Capabilities
  • Continuous monitoring strategy

无论是从安全还是性能的角度,云监控对于任何一个组织单位都是必须的。然而,正确地选择应用性能监控(application performance monitoring,APM)解决方案却是当下一个严峻的挑战。这篇文章讲了一些IT管理团队在评估与实现APM解决方案时常见的错误。如果你觉得隔壁老王的云服务(“吵闹邻居”,noisy neighbors)影响到你自己的性能了,那就看看这篇文章吧。这里面讲了通过使用Stackify的Retrace产品监控“吵闹邻居”与网页应用的一些技巧。最后,如果想了解一些专家对DevOps运动、服务器与云监控的相关见解,一定要读读这篇对Sean Hull大神的采访。

腾讯云可观测平台腾讯云可观测平台

0 人点赞