使用各种工具
位于旧金山的专业体育和大学体育的粉丝简讯在线出版商Bleacher Report一年前在把自己的核心基础设施迁移到云中之后很快就发现了性能监视的重要性。
该公司副总裁Sam Parnell称,他的公司担心潜在的性能问题,包括可能的延迟问题,因为该公司要按比例增加能量以满足2000万用户的需求和每个月查看5亿次网页的需求。为了防止出现瓶颈,他购买了大量的工具为这个广告支持的网站监视和管理这个新的云环境。
Parnell表示,“没有任何一个工具能够为我们做一切事情。我们在不同的层次使用不同的工具,为我们提供全面的监视套件。到目前为止,没有出现延迟问题。不过,我们使用这些工具优化系统的各个部分。”
该公司的工具箱包括一个服务器级的工具Scout。这个工具允许IT员工查看在主数据库和备用数据库中的工作量是什么样子,以及查看服务器上的处理器利用率和内存消耗。使用在云服务器中运行的代理程序可以完成这种监视并且报告提醒和状态数据。
这家公司还使用Nagios Enterprises的监视工具和Monit的开源软件工具。Parnell称,“这些工具肯定有许多是重叠的。但是,这些工具都有自己擅长的功能。这是我们一起使用这些工具的原因。”
Bleacher Report还使用Pingdom的ping检测工具以保证各个网站正常运行和在运行很好地运行。
“在监视的每一个案例中,100%的正常运行时间和快速的网页响应速度是非常重要的。如果人们不能访问这个网站和看到广告,那么,我们就要亏损。”Parnell说。
这家公司还使用New Relic的工具监视应用程序性能。这样,IT人员就能了解哪些网页运行速度快、哪些网页速度慢、内存消耗和处理器使用等性能问题。
实时观察
Parnell称,他的员工不间断地观察监视数据实时到达显示屏上情况。
他指出,关键是利用广泛的产品进行监视。这样,在出现故障的时候,你就会尽快得到更多的信息以便修复故障。总的来说,我宁可要过多的数据也不喜欢数据不够。New Relic工具能够很好地把重要信息显示在控制台。这样,你就不必费力地阅读数据。当你要迅速查看运行状态时,这是有帮助的。
为了实时观察性能,Parnell的团队使用一些大尺寸显示器不断地循环播放不同的报告,以便让这个团队的成员一整天都能看到这些报告。Parnell解释说,我们不是每一天都整天深入挖掘这些报告。但是,我们确实监视看起来异常的东西。当我们需要深入挖掘数据的时候,所有这些工具都为我们提供深入的数据。
监视器屏幕主要由一组负责的工程师观看,特别是在部署新的功能或者在高负荷工作的时候。
另一个需要记住的要点是,云环境和云监视都处在早期阶段。IT部门需要灵活一些,找到和使用云监视工具,并且要继续寻找更好的新工具。
Parnell称,我们使用Scout工具只有5、6个月的时间。这个工具工作得非常好。但是,在5个月之后,其它的工具可能做得更好。你需要了解市场的脉搏。这样,你才能跟上新的工具。新的公司一直在不断地出现。
他说,另一个要记住的事情是,你要不断地监视你的云厂商提供的服务器以保证你总是拥有性能非常好的的服务器。
“这是使用云服务的最大好处之一。使用云服务,你可以通过控制面板放弃速度慢的服务器并且选择另一台服务器。”
监视工具还一直在内部使用以改善网站新功能的开发。这些新功能都是为Bleacher Report的读者提供的。
“如果一个工程师正在部署一个新功能,我要求他们一定要观察性能并且保证这个新功能不会对其它地方的性能造成不利的影响。我们继续调整和精选这个系统中的一切东西以保证它尽可能是速度最快的。如果突然出现一个重要的体育新闻,我们的网络流量会很大。一切都需要升级。我们需要能够处理这个情况。
知道你将得到什么和监视什么
Forrester Research分析师James Staten称,要得到你的公司确实需要的功能,你必须向你的云厂商提出你的具体要求。
Staten称,最重要的事情之一是透明度,他们将向你提供的性能到底是什么?这包括询问他们允许你直接进行什么水平的监视以及他们向你发送什么记录,这样,你就能够看到正在发生什么事情。如果云厂商没有向你提供这些东西,你要求他们提供。
Staten称,你与你的云厂商之间的关系的主要部分是管理你的预期。他指出,你要做的任何性能监视都是你的责任,而不是你的厂商的责任。
如果你自己不能做这种监视,你可以雇用许多公司为你做这个事情。这些公司包括HyperStratus、Keynote Systems、惠普、IBM、Accenture以及其它公司。
许多人认为他们的服务级协议包含性能监视,实际上是不包括的。服务级协议包括可用性,仅此而已。
他补充说,同时,你的公司在云网络中运行的所有的应用程序和服务并非都是重要任务的。因此,你没有必要监视在云中一切应用程序的性能。你必须搞清楚重要的应用程序是什么。
端对端的云管理还差很远
IDC分析师Turner称,最后一个要考虑的事情是云性能监视市场仍然很不成熟。
Turner表示,有许多厂商将从路线图的角度向你谈论那个事情,但是,那是不全面的。今年仍然是主要强调自动化配置。那将允许真正的端对端的云监视。她说,随着今年的过去,我想,我们将看到更高级的东西。
随着更多的公司向云中的生产环境过渡,这种监视需求将变得更大。Turner称,我认为这将是许多机构今年投资的首选领域。她预测称,由于需要的高级程度,可能还需要一两年时间才能达到那个程度。
Staten称,当然,所有的监视需求都有相互矛盾的地方。当你付费进行监视以确保你将得到合同规定的性能的时候,你首先可能损害你的公司采用云服务节省的成本。如果你花许多钱解决延迟问题,那么,你在云服务中也应该花许多钱吗?