本文转载自微信公众号“ 无线CCIE的那些事儿”(ID:passcciew),作者:谢清。
去年2月份有幸参加了一次无线网络业界的专业会议,当时感触良多,其中一点就是:云、大数据、人工智能/机器学习/深度学习在无线网络中的深入应用。
当前网络运维的常态想必大家都经历过,每一天IT运维团队 helpdesk 基本上会接到两类帮助呼叫:
1.我根本连不上网;
2.你的网络体验太差:我看不了视频,我网页加载慢,我找不到打印机。
从这些问题的模糊表象描述追溯到问题的根源往往层次众多。是应用本身的问题?还是服务器、虚拟化出了毛病?真的是网络本身有问题吗?
一般来讲 IT运维人员此时能做的是通过事件日志和手工收集运维数据并凭借个人经验来判断问题。对于严重影响用户体验的问题,故障排查往往需要花费大量的人力物力,采用昂贵的工具,很多还要蹲守在现场等待故障重现。
这是当今典型的被动反应性(Reaction)运维,然而付出这些努力并不能保证一定可以解决问题!或者说快速找出问题的根本原因,更谈不上提供修复所需的手段。
最后,用户往往不胜其烦,自己关闭case并抱怨IT部门。甚至很多人还会想,我家孩子在家都能搞定这些,为啥你们不行?
总之是IT运维背锅。
不知大家有没有深刻的体会,当前的网络运维正在从以网络为中心向以用户为中心转变。用户体验比网络本身更有意义。而众所周知网络体验是一个极度复杂的、端到端的问题。
比如说一个用户反应无线网络上互联网缓慢,仅仅收集无线网络的运维数据并不能帮助他们找到原因。因为这条线路上涉及的潜在故障点实在太多了!至少要拿到无线网络介质状态数据,无线网络协议层面的互通数据,无线网络设备状态数据,无线和有线互联数据,网络服务的数据……
困扰IT运维的网络运维三大难题亟待解决!这三个问题中最难得就是出了什么问题,只有找到并定位问题,您才可以提出解决方案。
然而,在海量数据面前,能否找到问题的根源其实取决于对这些数据进行分析处理的人或人们。他们是否具备相关领域的知识?是否有处理相关问题的经验?对于运维工具(软件和硬件)是否熟悉并熟练使用?
一项第三方调查机构的数据显示:2016年,全球 IT 运营开销(包括内部开销和外包开销)已超过 600 亿美元。这其中有75%的运行维护成本用于网络变更和故障排查。虽然用户已经花费了这么多金钱在网络运维上面,但是却没有见到成效。
之所以产生这样的问题,归根结底是因为传统的网络管理方式和工具现在已经无法应对新的运维挑战,我们在试图用以前的方式方法和工具来解决现在面临的新问题!其效率和成果可想而知。
说到这里,有人会问有没有什么先进的黑科技来帮助我们?人工智能可以吗?
人工智能也许是目前最火热的话题,从围棋到医疗保健、从人脸识别到智能音响、从无人机到无人驾驶汽车。那么它对网络的影响将会如何改变我们的传统观念呢?
让我们先来看看业界趋势分析公司的一些预测:
◆ IDC认为未来几年网络行业的趋势是:有线网络和无线网络深度融合,网络将引入机器学习和人工智能。
◆ Gartner 则认为:到2020年,每一个 IT 产品都会或多或少的以某种形式引入一定程度的人工智能。
思科认为:这不仅是简单的市场口号,We take it seriously !
思科全数字化网络架构(DNA)从诞生的那一天起就是为了让用户从网络的建设阶段,例如设计、部署就享受到非常好的的用户体验,例如基于软件定义访问(SDA)架构的即插即用、控制和转发解耦、端到端分段隔离,安全策略与用户随行、全图形化拖拽操作等等。
然而建设只是企业网络的可见部分,就像冰山在水上的部分虽然显而易见,但是水下不可见的那部分却是可见部分的几倍甚至十几倍!而这一部分就是网络的日常运维和故障排查!
任何人忽视这一部分工作都会面临极大的挑战!
尽管现在市场上有一些可视化工具可以在一定程度上帮助用户。但都是头痛医头脚痛医脚,治标不治本。
◆ 这些工具只能收集网络某个层面的数据,并且无法把他们有机的关联起来。太多的工具拿到太多的零散数据,等于没有数据,因为他们都是片面的。还会造成被管理设备过载。
◆ 问题发生的时候才会做出反应,而此时问题也许消失了,有助运维的数据也无法全面收集。
◆ 故障排查时不同的人看到的视角不同,有时还会彼此矛盾,无法为解决问题做出依据
思科全智慧网络将以前沿创新帮助用户提升网络体验!也只有思科全数字化网络架构智能运维解决方案可以帮助您深刻洞察网络,将IT彻底的从繁琐重复的日常劳动中解放出来。
思科全数字化网络架构智能运维解决方案通过三步实现:
1. 首先,交付用户体验的前提是获得精准实时的全面的网络工作状态、网络服务(AAA,DHCP)工作状态,用户终端设备和用户自身以及应用的状态,我们可以通过包括传统方式在内的多种手段收集全场景数据。
众所周知,我们传统网管依赖的SNMP协议早在1988年就制定了第一个版本,30年来的演进现在已经发展到第三个版本,尽管如此,我们知道SNMP对于网络设备的资源消耗是非常可观的,尤其是需要实时运维数据的时候。快速的获取实时运维数据将造成被管理设备的CPU、内存等资源捉襟见肘,甚至会影响数据的转发。
思科在这里的创新是采用了基于先进的流式遥感遥测(Telemetry)方式从网络设备收集海量运维数据。关于遥感遥测和传统方法的比较请见下图,本文不做过多赘述。
2. 第二步是引入机器学习和深度学习将人工智能应用于海量运维数据的情境化关联,这一点至关重要。IT运维不再是管中窥豹,可见一斑,而是实时情境化。
那么问题来了,什么是情境关联?
从定义上说,情境关联使得我们可以知道在什么样的环境中如何对某件事情作出何种反应。它将不同层面的信息以有意义的方式连接起来,发掘这些信息之间的关系,从而形成最终的元数据,驱动我们能够采取正确的应对措施。
举例来讲,在现实世界中,您的孩子可能会告诉您他头痛。如果我们能将这一信息和他最近在学校运动中和其他孩子有过头对头的碰撞这个背景联系起来的话,就有助于我们做出判断采取正确的就医措施。
又或者,如果我们开车在路上行驶,遇到雨雪天气,我们知道应该放慢速度,特别是如果此时您知道自己很久没有保养汽车。
俗话说得好,一个人走路走的多了,他就会知道这路上哪里有坑,哪里可以通过,哪里不行。其实这也是一种情境关联!
在网络中,情境关联意味着要通过机器将各个层面的拿到信息进行自我学习并关联,以便获得最具情境的运维数据。既包括发生了什么还包括如何解决!同时预测网络将会发生什么?
例如下图例子:
注:DDI(DHCP,DNS,IP Address Management)
基于人工智能,利用机器学习,情境关联是我们智能运维最最核心的创新。这也是因为思科具备业界体量最大的网络用户群体,最大的网络专家群体和最大的网络知识库。以往我们的优势是具备情境关联能力的一个一个的个体,例如CCIE。随着网络越来越复杂,变化越来越快。仅凭个人之力是无法应对的
现在利用人工智能,我们把所有网络专家的智能都集中到了智能运维系统里为用户服务。智能运维将充分利用思科30 年的专业知识和非常好的实践,为用户网络提供最具情境的数据和有效的问题修复方案
因此交付用户体验的前提是获得精准实时的网络工作状态,相互关联,基于情境。思科智能运维解决方案要实现的目标是通过AI将运行中的网络设备、客户端终端、用户、设备产生的数据以及时间、地点进行情境化关联。通过时间机器记录运维历史情境数据,实时进行故障排查,预测网络运行趋势。 告诉运维人员用户端到端交付的应用体验是什么样的?而不是简单的告诉他这个无线接入点的状态是UP!
3. 最后是为运维人员提供切实可行的解决问题的方法。我们的目标不再是仅仅管理网络设备本身而是最终管理用户体验。
总结
如今,网络尤其是无线网络对于支撑企业关键业务的重要性已经不用质疑,但是很多运维人员对于网络的了解却还不够深入,IT人员往往站在运维的一线而深受责备,当用户应用体验变差的时候,无线网络往往是第一个被则难的目标,而此时故障的可能原因纷繁复杂,也许并不是网络造成的。
IT运维人员要从被动反应(Reaction)向主动出击(Proactive)转变,结合云、大数据、人工智能/机器学习/深度学习这些最新技术,我们现在可以收集和分析与网络相关的海量运维数据,从而提高业务运营效率并提供前所未有的用户体验。这使我们能够自动执行以前需要手动操作的任务,如数据包捕获,事件情境化关联和根本原因分析,以便消除手动配置和故障排除带来的问题。此外,机器学习还可以提供实时预测建议,在员工和客户遇到问题之前就为IT部门提供预警并解决问题。
想象一下,以往我们对网络的运维往往是在出了问题后才去排查和解决问题,人工智能/机器学习/深度学习可以帮助我们基于日常的网络运维数据发觉共性和典型问题,量化客户体验指数,在将要发生问题前就提前预警,给出问题发生的原因,提出解决问题的方法,乃至无需人工干预而自行解决。这是业界又一次重大的革命!
随着每天新的应用程序涌现,我们处于机器/人类互动的新时代的前沿,这将彻底改变互联网以及我们的生活,工作和娱乐方式。虽然我们还远远没有达到机器替代IT管理维护人员的程度,但是结合即时信息系统的虚拟无线助理现在已经成为现实。通过人工智能,你的网络将比以前更“聪明”!