网络通信 频道

你离WiFi宗师,就差一个WIS的距离

  很多人都知道锐捷几年前出了个WIS,能提升WiFi运维效率和使用体验,但真正用好它的人还不多。今天我就分享一下自己总结的WIS实战经验和使用窍门,希望能帮到更多的人。

  本文主要针对需要对WiFi品质负责的IT管理者和一线IT运维人员。认真阅读本文,可以

  1.了解互联网时代的WiFi运维方法论

  2.提升借助WIS开局、运维的能力

  3.提高你的工作效率和身价

  技术工具性良心之作,一次发全本。全文约13000字,内容较烧脑,阅读时间无法预估,亦不适合碎片时间观看,建议收藏并开启悬浮窗进行阅读。ps.感谢小黑羊对文章发布所给予的帮助。

  WiFi技术发展到今天,已经成为人们生活、工作中不可获取的基础元素。加上这几年各行各业的业务都在向互联网迁移,越来越多的企事业单位对无线办公网产生了极为刚性的品质需求。曾经“WiFi不好影响工作”的玩笑,放在今天是一点都不夸张的。

  遗憾的是,许多无线办公网建成后的使用品质都与预期存在不小的差距。很多用户自己也觉得奇怪,钱没少花,买的设备也都是大品牌,怎么WiFi还是不好用呢?

  答案很简单,交付与运维没做到位罢了

  对任何网络系统来说,在设备规格满足需求的情况下,规划、交付和运维的水平决定了其实际使用效果。和路由交换等产品不同,WiFi的无线传输机制存在诸多不可控因素,给交付与运维带来很大挑战。尤其在一些压力较大、对品质要求较高的场景中,WiFi使用体验的保障需要持续巨大的投入。

  对于这个残酷的现实,用户要有正确的认识,厂商也不能袖手旁观。

  帮客户降低WiFi使用成本,已经是行业主流厂商的共识;在这方面没有建树的厂商,必将逐渐远离主流市场。如今,自动化的WiFi品质保障平台俨然已成为很多企业级无线方案的标准组件,也是整个方案的核心价值所在。

  锐捷WIS就是其中的优秀代表。

  WIS,锐捷网络的无线智能服务平台,定位于为WiFi组网提供从交付到运维阶段的技术赋能,是目前锐捷无线产品的战略重点。它用这个时代的技术和模式,几乎颠覆了传统WiFi交付与运维的方式,极大减少了IT服务商和IT管理者的工作压力。

  对大部分用户来说,WIS是锐捷提供的免费的SaaS服务,支持所有工作在RGOS 11.x的AC型号(包括内置AC模块的EG网关)。也就是说,只要你的AC不是太过陈旧,就都可以通过升级版本的方式,来获得对接WIS的能力。

  因为定位于无线品质保障,WIS和AC在功能上几乎没有重叠。唯一的冲突,是两者都提供了以自动信道调整、自动功率调整为代表的网优功能,所以当AC对接WIS进行网优后,设备本地的功能模块会被自动关闭。

  这个操作看起来有点不讲道理,实则毫无问题,因为WIS的网络优化效果和运维方面的赋能确实甩了AC几百条街。但二者间也并不存在革命性的技术差异,它们的功能实现思路仍然是一样的,只不过WIS沾了云计算的光,拥有远超AC的算力资源和存储资源,才做得更好。

  算力的价值毋庸多讲,性能越高,自然就跑得动更复杂的算法。那两者差距有多大呢?前一阵锐捷无线研发针对一部分客户想用WIS又不方便让设备连接互联网的实际情况,将WIS的网络优化算法移植到了AC本地。但这样做的代价是,测试时用到的能带近万颗AP的最高端AC,也只勉强带得动几百颗AP了,其算法强度可见一斑。

  存储亦然,不管是网络优化过程中的模型建立,还是排障需要回溯不同维度的历史记录,总得有个地方来保存这些数据。在AC本地存放这些数据显然是不现实的,于是才有了IT管理者多少年如一日的关于自动网优效果不好和没有数据来支撑排障的吐槽。WIS则选择把数据放在云上,即便现在接入了300多万颗AP、一天新增18TB的恐怖数据量,也没出过什么问题。

  所以为什么前面说“用这个时代的技术和模式”?WIS能给无线网络交付和运维赋能,很大程度上得益于其本身又被云计算赋能罢了。

  既然是SaaS,那就有着显著的互联网调性了。我用WIS三年多,亲历了它功能从少到多、从弱到强的变化过程。并且到现在也没有消停的迹象,仍然是几周一次小迭代、几个月一次大迭代。这种针对需求变化与时俱进的产品形态,对用户显然是件好事,对传统数通厂商来说却是奇葩般的存在。

  最后需要说明的是,本地设备上报给WIS的数据只是管理和运维层面的数据,只会占用极少带宽,几乎没可能让出口拥堵。此外,上报到WIS的数据不包括任何业务数据,这一点不光是WIS,也是所有同类工具平台的底线(至少我用过的都是如此)。

  01 开局篇

  首先需要明确的是,WIS目前只专注于无线品质这一件事,其它工作还得在设备本地完成。我建议把一切都搞定再做开局优化,这样出问题时比较容易排查。

  这里所说的“一切都搞定”,是指除了功率、信道配置外的所有配置,包括且不限于IP/VLAN、SSID服务、转发模式、认证等等。WIS上也不能做这些配置,传统的开局流程该怎么做还怎么做,最后SSID放出来,电脑接入能正常上网后再做开局优化。

  其实老版本WIS上有过一些无线配置管理方面的功能,但在锐捷未来的产品规划中,所有设备的配置管理功能都会融合在诺客云管理平台(noc.ruijie.com.cn)中,WIS则继续在无线品质的角度纵深发展。

  对接WIS前有两件特别重要的事情千万别忘了。第一,AC和AP的版本强烈建议升级到官方推荐的最新稳定版本。新版本除了更完善地支持WIS特性外,往往也有着更好的稳定性和终端兼容性,没有理由不升级。

  第二,修改射频配置。比如在高密办公场景中需关闭一些AP的2.4G射频,或是一些比较重视安全的场景中要求将一些射频配置成嗅探模式,这些都要在对接WIS前完成,否则会影响网优效果。如果真漏了这一步,或者使用中修改了射频配置,我建议重新进行开局优化。

  这些都搞定后就可以把AC对接到WIS平台了,这个步骤需要在线上(https://wis.ruijie.com.cn/ )完成,操作过程相当简单,一直“下一步”就好。WIS需要知道AC的MAC地址才能把数据与项目进行关联,如果项目中有多台AC,则需把每台的MAC地址都绑定;双AC跑主备模式也无妨,WIS可以很好地处理这种情况,不会出现数据混乱。

  对接过程的最后还有一个权限分配的步骤。每个项目除了创建者外,还可以有多个“管理员”和“成员”,前者拥有完整操作的权限,后者则只有只读权限。这意味着WIS随时可以精准赋能给需要了解、掌控项目的人,无论对用户还是IT服务商都有很大价值。

  正常情况下,操作完成后几分钟内就可以在WIS上看到AC上报数据,所有数据同步完成则至少需要三四十分钟。这个过程急不得,数据未同步完成时优化是无法开始的,磨刀不误砍柴工嘛。

  老版本WIS里,开局优化需要一个比较复杂的操作流程,我时不时也会漏一两个步骤。而在目前的WIS平台上,优化流程已经被高度封装在“一键网优”菜单下,跟着向导走下来就行。

  优化操作从选择场景开始。目前WIS提供了7种常见的无线覆盖场景,你只需根据实际情况,将AP分组拖动到对应场景中即可。这意味着AP分组也需要根据场景进行细致的设定,一个Default的粗犷设置行不通了。

  每个场景的背后,实际上是基于海量项目提炼出来的一套配置模型,也就是专业人员的宝贵经验。基本上只要AP的点位规划和工程实施没有硬伤,按场景模型推下去的配置不会有什么问题。

  如果没有匹配的场景,或者IT人员对自己负责的场景非常熟悉,也可以在WIS上自定义一个场景,人为设定各种参数。在此我分享一个互联网高密无线办公场景的配置模版,也算是在互联网企业办公室、共享办公场景中踩了无数坑、迭代了无数次后的结论吧。

  这个配置模版的前提是承重墙比较少的办公场景,双频双射频AP采用6-8m三角布放,2.4G射频合理关闭至少一半。5G频段没用40M信道的原因是在互联网高密办公场景中负载和干扰越来越大,并且一旦出现临频干扰就很难处理,只要没有固定的大流量,使用20M信道如今利远大于弊。

  此外,这两年看到的5G干扰更多出现在52-64信道,故而进行了规避。这也利用了WIS网优可以进行信道选择的重要特性,如果你负责的场景中存在必须避让其它无线设备的需求(比如会议室的无线投屏或者会场的无线图传),这个特性可以帮上大忙。

  最后,低速率集不建议禁用,否则可能会导致办公场景中越来越多的使用WiFi接入的IoT设备连接异常。

  基本上只要办公室的空口干扰不是那么大,这个配置模型推下去效果就都还不错,即便小规模刷量场景和APP测试场景也扛得住。

  选择完场景就要正式进入扫描阶段了,这个步骤一旦开始就不能停止或回退。接下来的40分钟时间里,WIS会调度AC、AP扫描收集空口数据,生成优化方案,再直接推送到设备,全程不再需要人工参与。

  是的,就是这么简单粗暴。

  其实整个开局阶段也完全不需要人守在现场,一切都可以远程操作;另外也没必要在电脑旁边守40分钟等个结果,除非有极特殊情况导致失败,否则优化配置会自动生效。不过条件允许的话,稍后最好还是用专业工具做一次现场检测,确认优化效果并查漏补缺。

  最后一个步骤,优化后还需手动在WIS的“网优-接入优化”菜单中开启漫游粘滞和远端关联的检测与优化。尤其对于高密度的无线办公场景来说,这两个特性对上网品质的保障有着重要作用。

  顺带补充一句,40分钟的等待时间与无线网络的规模无关。不管是400人的无线办公网、4000人的会议无线还是40000人的无线校园网,通通都是40分钟。这对会展场景的临时网络搭建价值巨大,大部分会展无线品质差的原因不在于工程搭建,而是没时间做细致的优化。

  至于WIS网优的效果,我在三年前第一次使用WIS开局时做过一次验证。当时是3W空间成都店的开局,优化配置推下去后立即请现场大神用NETSCOUT AirMagnet Survey做了打点测试(不止信号覆盖,还包括漫游等项目),最终结论是没有明显问题。

  从那以后,用WIS开局就成了标准工作流程。

  坦率地讲,如果现场人肉开局调优能做到90分水平,WIS的优化效果凑合能打个80分吧。90分肯定比80分强,问题在于投入实在太大了,纯粹是靠专业的人和时间堆出来的。以现在客户对无线网络建设的普遍预算情况看,10个无线项目里能有1个90分交付就很不错了。

  而WIS虽难做到90分,却可以轻易复制出10个80分、100个80分乃至1000个80分交付。并且WIS解耦了人和场景,即便不在现场也能做还不错的开局,所以才会有华住一个IT人员搞定几百个店的开局还能保证基本品质的奇迹。

  使用成本和门槛的巨大降低、生产力的极大解放和企业无线品质的普遍提升,才是WIS的最大价值所在。

  02 网优篇

  网优到底是什么,这个问题必须先搞清楚。

  很多人觉得网优和开局是一回事,其实严格来讲,开局只是网优工作的一部分。它就好比建筑过程中的地基环节,地基没打好,楼盖好了可能就会出问题。

  反过来想,地基打好了,将来楼就不会出问题了么?比萨斜塔的例子告诉我们,如果所处环境发生变化,楼还是会歪的。若继续视而不见,楼说不定会塌哦。

  WiFi也一样,它工作的空间环境是魔幻的,有着无数维度的动态变量。环境都变了,如果设备配置参数还一成不变,结果就只能是被投诉了。

  所以说无线项目的开局优化只是网优的开端。长期良好的无线上网品质,是以贯穿整个无线系统生命周期的优化工作为基础的,需要持续且巨大的投入。这也是为什么很多WiFi大神帮忙出手调无线,只敢承诺交付时品质的根本原因。盯一辈子?这个忙谁都帮不起。

  产业界也一直在努力让设备来代替人做网优,但效果很有限。目前大多数企业级AC产品提供的网优功能,是个聊胜于无的存在。部分厂商甚至不建议客户开启这个功能,因为可能会带来更多的问题。

  与开局优化这种“盘古开天地”的模式不同,日常网优必须做到“润物细无声”。不能断网或掉线只是底线,不让终端用户有所感知才是很多IT管理者的真实诉求。

  看看老司机一般是怎么做网优的吧。比如陆续有人反映无线办公网在某个区域信号不好,他一定不会上来就三下五除二修改附近AP的发射功率,而是先去看看环境,实际测试一下。观察一段时间后,他可能才会根据不同维度的数据,结合自己的专业经验去做一些调整,然后再观察。如果问题没解决,那就再次重复这个过程,直至问题解决。

  在解决问题的完整周期中,老司机的态度一定是谨慎乃至保守的,因为他知道就算没解决老问题,也绝不能带来新问题。条件允许的情况下,观察的时间要足够长,才能尽量保证得到的是一个相对稳定的、能够加以调整的模型。

  不管人还是设备来做网优,逻辑都是这样的。设备虽然有着不知疲倦的优点,却也有着存储资源方面的巨大缺陷——大部分AC连无线网络运行的历史数据都没有,还谈什么网优呢?

  这就又回到前面的分析结论了。得益于云计算带来的算力和存储赋能,WIS有着相对复杂的算法,也有着多维度的历史数据。它就像老司机一样盯着这张无线网,无时无刻不在观察、调整,接手了长期持续的网优工作。

  但毕竟WIS不可能像人一样到现场感知环境,它只能通过AC/AP上报的数据进行分析,所以在实践中可以看到WIS的调整更为保守。仍以信号覆盖为例,我还从未见过WIS对AP发射功率的单周期调整超过3个百分点,所以如果在开局阶段的场景模型选择不当,可能需要极为漫长的时间才能逐渐调整到位。

  这里补充一句,如果按前面我给出的互联网高密办公场景的模型进行开局,主流室内放装型AP的2.4G/5G发射功率仅有7%/12%,这种情况下WIS的调整幅度是稳妥并有效的。但如果开局时没下发过场景模型,那就基本不要指望WIS能自动调整到位了,重新开局才是更好的选择。

  也许是网优对无线办公网来说太过重要,这个功能在WIS中是默认开启且不能关闭的。你甚至在界面中完全找不到和网优有关的设置,只能通过一些维度的数据看到幕后调整的端倪。

  这似乎是有意为之。三年用下来感觉WIS确实效果在不断精进,但也越来越傻瓜化,能看到的、能调整的东西也越来越少。这个变化也许会让老司机感觉有点不爽,但对于更多的普通IT管理者来说,WIS的使用门槛确实在不停降低,这也许就是产品研发不懈追求的目标吧。

  总之,网优这件事WIS可以做得比人更好,放心交给它就是了。

  03 排障篇

  我看过不少互联网企业的内部调查问卷,WiFi体验毫无例外地成为员工对企业IT最大不满之所在。

  WiFi肯定是背了一些锅。对很多终端用户来说,WiFi就是互联网,所以一旦有问题他们就喊“WiFi不好”。但IT运维人员显然不能这么草率地下结论,“WiFi不好”的背后有着太多可能性。

  这里可以参考一下格物资讯维护的共享办公场景IT运维模型,可以看到常见故障几乎涉及到所有层面,WiFi只是其中一部分罢了。分享个小经验吧,如果你确定办公网一切正常却突然有很多人喊“WiFi不好”,最大的可能是企业邮箱或者企业微信/钉钉挂了。

  所以在用WIS排障前你必须先确认一个问题,就是你要处理的故障真的是WiFi层面的故障。这么做的原因有两个,首先非WiFi层面的故障定位相对容易一些,建议优先排除;其次是WIS也不关注无线层面以外的东西,假如是互联网接入或DHCP出现问题,WIS是判断不出来的。

  如果真确定是WiFi层面的问题,那也别慌,WIS在排障方面的赋能是颠覆性的。

  对一切IT排障工作来说,最关键的环节是定位问题而不是解决问题。只要能找到问题,解决起来往往只是敲一些命令的事。但WiFi故障的定位恰恰是最难的,一来空间的不确定性导致WiFi故障现场很难被保留和复现,二来设备本地也无法保存历史记录,这直接就把排障工作升级到地狱难度。

  报障来了,说WiFi挂了,没法工作了;

  设备侧看不出异常,你只能苦逼兮兮跑现场;

  到了一问,嘿,用户说又没问题了;

  你现场蹲俩钟头,问题就不复现,下班走人;

  第二天一早,报障又来了~

  这尴尬却常见的局面,让IT运维人员在处理WiFi故障时经常只能连蒙带猜,也给终端用户一种被忽悠的感觉。试想一下,如果问题总在反复,报障回复中又一直存在“也许”、“应该”、“大概”、“可能”这样的字眼,换谁最后都得急吧。

  针对这个问题,WIS祭出了上帝视角。

  前面提到WIS在云端收集、保存了AC/AP上报的所有数据,这不光能用来建模做全时网优,亦可用来排障。它就像监控系统里的硬盘录像机,忠实记录了从现在往前一端时间内无线网络的完整运行情况。你随时可以调取到任意时刻设备、终端及空口的状态信息,洞察故障的根本原因。

  在排障的方法论上,用不用WIS都是一样的。你必须先获取尽量详细、准确的故障描述,比如是个别终端有问题、某个区域有问题还是全部都有问题?具体故障现象是什么?能否提供一两个故障比较明显(最好现在还处于问题中)的终端的MAC地址?再结合专业知识和经验,去做有针对性地检查。

  传统情况下,这个过程中有着无数陷阱,最常见的莫过于报障者提供了不准确的信息,直接会把IT运维人员带到沟里。有了WIS就简单多了,即便你获得的信息是模棱两可的,也可以快速印证其有效性,定位到具体问题。

  具体做法就是把“概况-体验”页面做为排障的入口。这里的数据并不是某个单一维度的数据,而是WIS用几乎获取到的所有维度的数据对无线网络建模后,每隔5分钟推算出的每个终端接近真实上网体验的综合评分。我认为这个评分是比较保守的,如果WIS给某时刻的某终端打了个“有点卡”的标签,那就一定是真的卡。

  收到报障进入WIS的“体验”页面后,先看右侧终端体验图中是不是存在异常比例的“有点卡”和“上线难”。如果你看到的情况和上图(取自正常运行的无线办公网)类似,那就不应该存在整体故障或明显的局部故障。建议排障前再和现场确认一下,以免被带到沟里去。

  要是还不放心,可以看下左侧关于无线网络几个重要指标的历史记录,再看看AC的带机量/流量/CPU/内存的历史数据。这些指标只要没有明显异常,无线网络整体故障和局部故障的可能性通常就可以排除了。

  关于终端体验图的解读还有几点需要注意。首先,无线终端本身是可移动的,当WIS的采样周期来临时,假如正好赶上人带着手机进了电梯等WiFi覆盖边缘,体验评分也许就会很低。所以看到“有点卡”和“上线难”的终端也不用慌,关键是比例,只要比例很低,就可以认为无线网络工作正常。

  其次,如果你在终端体验中看到一些“有点卡”和“上线难”,而问题终端又普遍集中在2.4G时(如下图),也不用紧张。由于众所周知的原因,2.4G空口的品质要比5G恶劣得多,并且有持续恶化的趋势。2.4G的问题,现在已经不是优化能解决的,还是要尽量摆事实拿证据,建议用户改用5G WiFi。

  其实如果开局和网优都交给了WIS,无线网一般很少再因为射频方面的原因导致全局故障,反倒是认证引发的接入困难遇到得越来越多。如果你接到大面积WiFi接入困难的报障,而终端体验图看上去又没什么异常,可以再去“原因分析”中检查一下认证维度的数据,很可能会有所发现。

  WIS采集了所有终端在802.1x认证过程中留下的关键信息,最终提炼成4项重要指标,对定位认证环节的问题有着立竿见影的效果。如果你负责的是大连锁或多分支场景的网络,如果你经常因为跨广域网认证的不可靠性背锅,这个功能可以拯救你。

  如果报障明确发生在某个区域,在终端体验图上就看不出什么了,必须切换到AP视角。在这里,WIS把最近一段时间和特定AP有关的数据都关联在一起做了集中呈现。不得不说,当不同维度数据都叠加在一个图上的时候,你很容易就能发现问题,并且顺藤摸瓜挖出根本原因。这种排障体验,比连蒙带猜强了无数倍吧。

  除了赤裸裸的数据,WIS还提供了一个事件维度的视角,按时间顺序呈现了一天内和AP有关的所有事件。这些数据经过了提炼与聚合处理,都是WIS认为AP不太正常的情况,比如异常上下线、体验预警、信道使用率高等等。这些数据是特别有用的,很多你要排查的局部故障的原因已经清清楚楚写这了。

  值得一提的是,WIS还在采样时记录了AP连接的每台终端传输的数据量,回溯时以饼图的形式呈现在AP的事件维度页面。对于一些因为负载造成的体验异常来说,把同一时刻终端流量和AP的数据结合起来,就能轻松“看到”问题了。

  当然,WIS收集的终端侧数据远不止这一个维度,我感觉应该比AP的还要丰富一些。也唯有如此,才有望应对个体排障时的无限可能吧。

  WIS对终端数据的处理方式还是事件聚合和数据关联两条主线。在被称作“基础模式”的事件聚合页面中,你能看到任意一天的终端连接履历。对体验不佳的时间点对应的事件,WIS会做高亮处理。其实用多了慢慢就会发现,在这些高亮处理的信息背后,WIS往往已经把故障原因写得很清楚。

  如果在“基础模式”下得不到有用的提示,就得去“专家模式”下捞原始数据自己分析了。在那里,你可以查看终端在任何时刻的无线连接状态,以及每一条和终端有关的日志。当然这些数据也是经过处理的,不管是图表中叠加的数据组合,还是用“人话”描述的终端行为,理解起来都很容易。

  因为终端本身可能存在漫游行为,数据的表现方式也远比AP复杂,排障过程中千万不能乱。我的经验是在时间轴中选择报障时间,回溯终端那一刻的所有数据,看有无明显异常。如个体有异常,再点击时间轴下的AP图标进入AP视角,和当时处于同一AP同一射频下的其它终端进行对比,确认到底是个体的问题还是区域性的问题。

  一般来说,大部分个体故障其实都不是独立事件,而是区域性的问题(最常见的莫过于突发负载或外部干扰造成的体验下降),只不过有所感知并报障的用户不多罢了。

  篇幅原因,我在这里就不用具体案例做介绍了。如想了解更多的用WIS排障的经验,可以参考之前发布的《小米智能插座是怎样对WiFi发起慢性DDoS的》,里面详细记录了一次借助WIS定位问题、证明问题和解决问题的异地排障过程。

  话说回来,如果真推定应该是终端的个体问题,而WIS却没能感知到异常,才是最棘手、最难处理的问题。遇到这种情况,你要先想清楚是不是有必要一查到底,因为排障的投入可能是巨大的,结果也可能是无法预测的。相信看过《被小米笔记本的WiFi坑了一道》这篇文章的朋友,都知道我没有危言耸听。

  如果确定要查,那就准备抓包吧。

  对WiFi排障而言,抓包分析是终极解决方案,却也有着很大的局限性。首先,与远程在设备上就能抓包的有线环境不同,WiFi环境下抓包需要专业的人和专业的设备到现场,这个条件就不是一般用户能拥有的。其次,人和设备到现场时能赶上故障出现,那自然是极好的;如果问题迟迟不复现,难道要在现场一直等下去?

  也许是看到受困于此的IT管理者太多、咒怨太盛,WIS在去年的大迭代中增加了一个抓包分析全家桶,很大程度上缓解了WiFi环境抓包的痛苦。

  不再需要什么专业设备,也不用管具体位置在哪,你现在只需知道要抓包的区域还有哪些AP就够了。WIS可以调度任意AP的任意一个射频,以第三方的身份抓取信号覆盖范围内所有的通信报文,再自动回传到WIS平台。

  分析报文也不一定必须下载到本地了,WIS提供了一个不亚于传统专业工具的线上分析器,常见操作和主要维度的统计都没问题。美中不足的是这个工具的界面目前基本还都是英文,不过相信对IT管理者来说不是什么问题。

  分析器中还包括一个叫做“专家经验”的模块,里面除了给报文进行分类与聚合统计外,还按重要性对事件进行了级别划分。其实这才是最有用的功能,毕竟大多数IT管理者没有抓包分析的能力及经验,但如果拿到的是经过预处理的结果,应该还是能看出一些问题的。

  这个功能出来没多久我就被迫用上了,当时有个报障号称“无规律的WiFi卡顿”,WIS上也看不出明显异常,观察了两天问题也没消失。最后被逼无奈做了抓包分析,发现网内有终端mDNS行为异常(估计与研发调试有关),搞得其它苹果设备高频次、大流量回包,降低了空口传输效率和上网体验。

  这问题除了抓包分析外真没有太好的办法,也幸亏“专家经验”模块把重点信息筛了出来,问题才得以快速定位。最关键的,这是上海的报障,我在北京两天就有结论了。以前不敢想。

  抓包分析功能的出现,补齐了WIS在排障环节的最后一块短板。坦率地讲,这个功能还谈不上好用,尤其自动抓包、过滤抓包等重要特性仍未上线。不过这毕竟只是个新增不到半年的功能,希望未来能继续完善吧。

  总而言之,企业WiFi的满意度普遍偏低,往往并不是说IT管理者水平不行,而是在客观因素限制下定位问题的成本太高,乃至影响到了可操作性。而WIS给IT管理者带来了真正的运维赋能,让专业的人能更好地发挥专业能力,大幅降低了排障成本。以至于很多用过的人都认为,排障这件事,有WIS就能站着和用户沟通,没有就只能继续跪着了。

  04 运维篇

  除了开局、网优和排障外,WIS还提供了很多面向管理运维的功能,用对了也是可以事半功倍的。

  第一个想说的就是模糊搜索。这个功能出现以前,WIS的所有操作都只有树形菜单这一个标准入口,比如前面提到的AP/终端的数据页面,入口放在三级菜单下,规矩是显得挺规矩,但在处理一些紧急故障时繁琐的操作也会让人很恼火。

  直到置顶搜索栏的出现,这个问题才被完美解决。当你敲下任何字符时,这里会自动显示关键字在不同数据维度中的匹配结果,效率极高。比如报障的时候给了问题终端的MAC地址,你直接复制到搜索栏就是了,数据一步可达。

  值得一提的是,终端的备注信息和802.1x的账号信息也在匹配之列。前者一般用来标注VIP用户的终端和经常出问题的终端,以便更快速地定位;后者则让报障变得更简单,就算碰到不懂什么是MAC地址的用户也无妨了。(IP地址因为存在变化,不参与搜索匹配)

  我感觉搜索栏的出现改变了WIS的产品性质。以前是黑盒子一样的数通产品,解决有无问题就好,UI说不定是研发写的;现在是互联网产品,也开始关注用户交互体验了。

  第二个比较重要的功能是“时间胶囊”,它会自动记录7天内设备配置文件的任何变化,并将其高亮显示。要知道很多中小企业的IT人员在改动设备配置时没有及时备份的习惯,后期如需回退可能会有麻烦。另外设备配置修改有时也涉及责任问题,有可能需要回溯具体行为。有了“时间胶囊”,这些问题就都不存在了。

  接下来看看“终端能力”。顾名思义,这个页面呈现的都是终端不同维度的统计数据,在出IT运维报表的时候可以直接引用。另外,这些数据对IT策略和制度的迭代也有重要的指导意义。

  在2018年最后一次升级中,WIS新增加了一个叫做“基线分析”的功能模块,针对一些重要的数据维度给出一套动态模型,用非常直观的方式呈现了无线网络的运行情况。

  如果说终端体验数据是黑盒的思路,那基线模型就是和IT管理者一样的正向思维加灰色区间的逻辑。简单地说,如果运行数据在高低两个极值之间,则可以认为无线网络的状态是健康的;如果数据“破位”了,至少你要关注一下,看看是什么原因导致的。

  客观地说,“基线分析”是个挺好的功能,我已经养成了经常看一看的习惯。不过也有个小遗憾,就是目前针对数据“破位”没有告警功能。如果能像其它运维事件那样,把基线模型的变化和告警信息推送到IT管理者微信,相信能发挥出更大的作用。

  和基线模型一同上线的还有空间环境层面的统计数据,目前主要呈现周边WiFi干扰信息。你可以看到自己的某一颗AP受到哪些干扰,也可以看到某个干扰信号影响了自己哪些AP。不过这些并不关键,关键的是你不用为了这点东西跑现场了。

  一段时间用下来,我觉得这个功能在办公场景最能体现价值的地方是查找私接AP,你可以根据信号出现在哪几个AP附近来判断私接AP的大概位置。不过这个过程还是有点麻烦,如果能让IT管理者上传平面图并标注AP位置、WIS自动在图上标注私接AP的存在区域就堪称完美了。

  最后,有必要说说“大展板”。

  从WIS的第一个版本开始,就有了“大展板”这个功能模块,大意是把一些技术性没那么强又普遍受关注的场景数据提取出来,在一个动态页面下做集中呈现。

  对一些大型行业客户和展会场景来说,“大展板”还是有一定价值的,至少大屏打出来比较抓眼球,领导们通常也比较欣赏。但对普通的IT管理者来说,这个功能既不能减少故障发生,也不能用来辅助排障,意义并不大。

  如果真可以有一块属于IT管理者的屏,他们希望是一块能在用户和自己之间搭建起一座桥梁的屏。

  在充分听取了几十位IT管理者的意见后,我请WIS的研发人员定制了另外一套模板。新模板采用了9:16的动态页面,每分钟自动刷新一次;全屏只呈现9个指标,均为实时数据。在最突出的位置,研发人员把WIS上海量维度的数据抽象为一个普通用户能看懂的体验评分。只要看到这个页面,任何人都能立刻知道所处环境内WiFi上网体验如何。

  你可以把这个页面投在前台或人流密集处的大屏上。如果有员工在微信、钉钉的工作群里吐槽WiFi,可以安排行政人员马上看一下评分。如果低于80分,现场肯定是有问题的,你直接进入应急响应状态就好;如果高于80分,那一定只是轻微的局部故障或终端个体问题,请行政赶快拍个照片发群里,不要让负面情绪继续发酵。

  说到底,终端用户和IT管理者之间总会有点矛盾,这是信息不对称和专业领域不同造成的。只有让用户看到、看懂尽量多的量化数据,你的压力才可能降低,运维排障才能事半功倍。这,就是这块屏存在的意义。

  这块屏的诞生过程中我还看到了一个喜人的变化,那就是WIS上能看到的大部分数据,甚至它提供的一些功能,都是可以通过REST等互联网化的API进行调用的。这种互联网时代的产品特性是业务倒逼出来的胜利,对传统数通厂商而言是不多见的。如果你有把WIS数据集成到其它系统里的需要(如下图这种),不妨找锐捷聊聊。

  后记

  我本来不是很了解WiFi,纯粹因为前几年它成了企业IT运维的痛点所在,我才不得不开始关注。

  等到理论和经验都有一些积累了,开始上手了,噩梦也就开始了。我发现,WiFi运维我也搞不定。

  技术上的难点还在其次,关键是你无法预知人肉网优和排障需要多大的资源投入。这种不确定性导致企业WiFi的运维成本居高不下,对此《GB/T 32420 无线局域网测试规范系统工程测试实施指南》里有着精准描述,IT同仁们可以把国标拿给领导参考。

  所以有段时间我特怕听到“帮个忙吧”这几个字,这个忙真帮不起。我不想坏了兄弟交情,也不甘被认为不专业,更不愿浪费时间对不起自己,所以咱还是聊点别的吧。

  但一线IT人员就苦了,他不能像我这样把事推走,只能硬着头皮往上冲。一边是这个时代用户对无线办公网越来越高的品质要求,一边是运维能力的缺失,矛盾最终往往在夹板气中爆发。

  直到WIS的出现,事情才真正有了转机。互联网时代WiFi运维之道、法、术、器,终于完成闭环。

  三年用下来,我对WIS经历了一个从质疑到信任再到依赖的过程。它已经是最关键的生产工具,少了它就别说什么排障和应急响应,也不会有视频和文章里发布的数据和模型。用过拖拉机谁还愿意刀耕火种?没有WIS的日子我是过不下去的。

  不过WIS虽然把很多东西变得简单,却依然有一定的使用门槛。并且用上WIS之后,IT管理者的一些工作习惯也会为之修改。写这篇文章的目的,就是希望让更多人少走弯路,把WIS用得更好。

  感谢格物资讯样本库企业中的IT同仁,你们站在最终用户的角度给WIS提出了很多很棒的改进建议;也要感谢锐捷WIS研发团队一直以来的支持,你们总是很快响应用户提出的需求,让产品与时俱进。

  最后,衷心祝愿每一位IT同仁都事半功倍、每个企业都能用上令人感动的好无线。

      本文转载自微信公众号:格物资讯  作者:老韩

0
相关文章