从网络发展看无线网络故障排查需求
一、当最后100米无线化
所有对网络故障维护有较长期经验的人都清楚,早期网络大概75%左右的故障来自于物理连接故障,也就是来自于网线或物理接口。后期伴随综合布线理念的贯彻与执行,制造工艺的提升,线缆与接口质量的提升,这一故障的比例大幅度降低了。那么当我们的最后100米无线化之后,网线和物理接口会出现什么样的情况呢?
1.1 灵活性的大跃进与技术本身的退步
首先我们应该有一个明确的认识,无线WLAN网络事实上是网络灵活性的提升和网络技术的倒退。从技术角度讲,WLAN本身将网络技术倒退了至少5-10年,即从交换式以太网年代退回到共享式以太网年代。这种倒退从物理介质角度而言尤甚,因为在当前的交换式以太网技术中,每个用户是独享传输介质的,但是在无线技术中,所有的用户共享物理信道,只要用户间相互可见,无论有多少个AP,所有工作在同一频点的用户共享相同的物理介质。这就是典型的同轴共享式以太网或基于HUB的共享式以太网的特征。
那么在共享式以太网里需要考虑的物理数据碰撞、网络用户量与数据量规模无法无限扩展等问题重新归来,因此网络排错时需要考虑的因素增加了。
1.2 便捷性与管理复杂度的双重提升
相较以太网,WLAN在提升便捷性的同时,其传输介质发生了明显的变化,从现在几乎绝对可信的铜缆和光纤变为绝对不可信的频谱资源,因此,管理无线网络的网管人员除必须拥有管理以太网络必备的充足TCP/IP知识外,还必须理解无线网络中的射频知识,例如对信噪比、信号强度、发射功率、天线增益、干扰等概念的真正理解,以及对802.11协议的独特特性,例如重传的概念的真正理解。管理无线网络对网管员的知识体系提出了新的挑战,并且对接入介质的管理复杂度呈几何级提升。
1.3 从管理“有”到管理“无”
传统以太网是有线网络,所有的连接是可见的,某个终端连接到具体哪个设备是明确的。而无线网络的连接是不可见的,某个终端在整个的接入过程中会不断的发生切换,从一个接入设备切换到另外一个接入设备。在某些极端情况下,设备会在两个不同的接入AP之间一分钟之内切换几十甚至上百次,并且这种切换完全由客户端决定,传统网管软件的刷新速率已经完全无法把握这种情况,这无疑成为如何进行无线网络管理所需解决的又一个重点问题。
二、摩托罗拉系统将无线故障排查可视化
2.1 无线网络拓扑的可视化
不一样的无线网络拓扑。当讨论有线网络拓扑图时,我们只需将客户端简单地连接到接入交换机的物理接口即可。但是在无线里同一个AP还需要讨论其ESS/BSS的问题,因此拓扑图应该是客户端接入了哪一个BSS,然后这个BSS接入到哪一个ESS。所以,无线网络的拓扑图与有线网络的拓扑图是完全不同的。
2.2 不同的物理状态
在无线领域中,没有明确的线缆连接,只有无线区域的覆盖好坏,而且无线网络的动态特征导致这种覆盖好坏是变化的。因此,我们需要实时热图来监控整个无线网络,使其真正的可视起来。
2.3 物理层排错
在物理层排错时,大家普遍认为无线的干扰是网络质量的罪魁祸首。但是事实上,无线网络中的资源利用率和干扰强度的组合才是真正的问题所在,而且干扰不仅仅是WLAN对WLAN的干扰,还包括其它同频干扰,例如微波、2.4GHz无线电遥控射频信号或者蓝牙信号。因此,在物理层排错中,我们必须对所有的干扰源进行分析,同时对其资源利用率进行监控。仅仅通过网上某些免费的工具是不能够真正定位问题所在的。
举一个简单的例子,大家随便找两个AP,将其设定在同一个信道上,然后把它们的发射功率调到最大,物理间隔仅10厘米。用传统软件看,这种干扰是极强的。但是如果有一个AP上有用户,另外一个AP上一个用户都没有,或者即使两个AP都有用户,在AP的竞争策略设定合理、用户流量不大的情况下,我们的上网感知仍然会相当好。
相反,如果我们将两个AP之间的距离拉远到30米,每个AP上都接入用户,并且采用大流量,此时,用传统软件看到的干扰会较小,但是实际的使用感知却非常差。
还有一种情况,如果我们只使用一个AP,并让几个用户同时接入,在用户处在互相不可见的位置同时观看高质量视频时,所有用户的感知都会很差。但在这种情况下,传统软件会认为这是没有干扰的。
摩托罗拉系统选择对整个无线网络的整个物理层实现完整的呈现,包括各个信道的干扰强度、信道使用率以及是否有非WLAN的干扰。在下图的示例中,信道11的干扰高达-25dBm,但是利用率只有5%,而信道1的干扰在-40到-50dBm之间,接口利用率却高达100%,而且是持续的微波干扰。在这种情况下,信道1干扰小,但基本是不可使用的。信道11干扰极强,却一定是客户体验最好的。因此,物理层可视化在无线网络中是非常重要的。
2.3 您真的知道网络的情况吗?
在传统以太网中,如果用户出现玩游戏频繁“卡”的情况,那么,查看一下互联网出口的拥塞程度和用户Ping DHCP服务器的响应时间,就基本可以定位问题所在了。但是对于无线网络而言,频繁“卡”很有可能是无线和有线双重因素导致。
如果是响应较慢,需要定位是无线慢还是有线慢;如果是无线慢,还要确认是哪种无线因素导致了缓慢。那么,到底是由于干扰、冲突、,无线网络整体性能不足还是覆盖不合理的频繁漫游切换导致了这个问题呢?
有些时候,由于无线网络是共享式的,我们在无线中只要有一个或几个用户是低速率用户,整体网络性能就会大幅度的下降。在20个终端中部分是802.11n AP的网络(如18个802.11n加2个802.11b),其整体网络性能可能远远低于20个均是802.11g的网卡。因此,如果一个用户玩游戏卡,很有可能是另外一个用户的网卡速率低造成的。
另外,如何排查用户在两个AP间频繁切换的问题呢?如何排查用户的性能是由于干扰造成的呢?对于无线网络的排错需要看一个信道、一个用户、一个BSS的整体情况,而不是仅仅排查某个用户。
摩托罗拉系统通过一个界面可以远程的了解数据的信号噪声比(干扰)、用户的重传(空口负载情况)、数据传输速率(是否有低速率用户影响了整个网络性能)、用户的传输信道分配(是否用户短时间内在两个不同信道内发射,也就是在频繁漫游),完全可视化地监控全部可能存在的故障。
如果网管人员不足、无法实时监控时,摩托罗拉系统可以定义网络质量劣化的两大重要指标——传输速率和重传率的门限,对网络进行实时监控,一旦指标超越门限值即可通过告警了解到这一情况,并且通过对历史数据的详细分析确认网络故障的具体原因。
例如从附图中网管员了解过去24小时中的不同类型报文比例,如果将这一趋势分析放大到季度或者年度,我们又可以分析网络趋势,及时调整网络以避免问题的大规模爆发。
三、通过故障排查可视化确保网络的真正可用性
网络最后100米由WLAN接管是大势所趋,应用的多终端协同化是大势所趋,关键应用效率提升通过移动应用方式实现也是大势所趋。无线网络技术倒退是实际情况,无线网络的物理介质脆弱是实际情况,无线网络不可视也是实际情况。
要求无线网络完全无故障是不现实的,在这样的实际要求下,无线网络故障排查的高效率是我们必须提供的,尤其是将关键应用部署于无线之上的机构。