• 快捷搜索
  • 全站搜索

复杂网络环境下网络故障排查实例

2016-03-10 17:02:00作者:中国人民银行南昌中心支行 朱虹编辑:金融咨询网
网络时代的来临给人们带来了极大的便利,然而随之而来的网络维护难度也越来越大,引发网络故障的原因更加复杂,排查起来非常困难。本文通过介绍一则网络故障的排查过程,对故障产生原因进行了深入分析。

网络环境中的设备种类日益丰富,网络通信功能日益强大,随之而来的网络维护难度也越来越大,引发网络故障的原因更加复杂,排查起来非常困难,甚至是无处下手。本文通过介绍一则网络故障的排查过程,对故障产生原因进行了深入分析。

一、问题的提出

  1.网络环境

  防火墙将网络划分为内网、外网和DMZ区,DMZ区通过内容交换机进行负载均衡,并在内容交换机上部署网间互联平台。内网和外网通过网间互联平台对相关应用系统进行访问,防火墙对网间互联平台发起的访问作相应的地址转换。防火墙和内容交换机都有双机热备,内外网交换机也有双机热备。

  2.访问规则

  应用系统部署在内网,内外网访问相关系统时首先将需登录网间互联平台,然后通过网间互联平台对相关应用系统发起访问,防火墙将网间互联平台发起访问的DMZ区IP地址转换为内网映射地址进行访问。

  3.问题描述

  内外网客户端登录网间互联平台正常,且通过网间互联平台访问内网中与网间互联平台发起访问的IP地址同网段的应用系统正常,但访问不同网段的应用系统出现异常,而经过测试服务器运行正常。

二、故障的排查

  第一步:由于是网间互联平台中的部分系统无法正常访问,而网间互联平台是部署在内容交换机上的,因此首先从内容交换机上排查。通过远程连接登录到两台内容交换机,发现内容交换机系统状态正常,表明DMZ区网络通信正常且内容交换机运行正常,问题可能出现在部署在内容交换机上的网间互联平台。为减少对其他应用系统访问的影响,考虑先对内容交换机进行主备切换,观察内容交换机切换到备机后网间互联平台上的相关系统访问能否恢复正常,但切换后仍然无法访问。初步判断故障并不是出现在内容交换机及网间互联平台上。

  第二步,根据访问规则,所有经过网间互联平台的网络访问都要经过防火墙进行地址转换和策略控制,初步判断问题不在内容交换机上后,从防火墙上开始排查。通过对防火墙连接状态的信息监控,发现内容交换机发起的对相关应用系统的访问在防火墙中显示只有发送数据包无接收数据包,连接一直处于握手状态,无法建立连接,我们认为防火墙有问题。但继续查看防火墙上其他应用的连接均正常建立,这又使我们不得不推翻原来的判断,确认防火墙运行正常。焦点再一次回到内容交换机上,推断问题可能还是出在内容交换机,于是决定重启内容交换机,分别重启内容交换机主备机后问题仍然存在,通过防火墙连接状态信息监控还是看到没接收数据包。

  第三步,通过确认前面排查分析没有错误情况下,我们认为还是要回到网络连通性着手,因为网间互联平台上同网段的应用系统能正常访问,但不同网段的应用系统无法正常访问,问题可能出在交换机路由转发上。登录到内网交换机上,首先检查路由,查看是否出现路由丢失等极端情况。通过指令查看交换机中存在网间互联平台发起访问所需IP地址的路由,接着又从内网交换机的双机热备工作状态是否正常上排查,通过指令查看内网交换机主备机状态也是正常的。然后通过查看内网交换机ARP表,发现在ARP表中与内容交换机内网映射地址对应的MAC地址为其他服务器的MAC地址,出现了IP地址冲突,ARP表未能正确建立,发现了问题所在立即查找并关闭造成IP地址冲突服务器所在交换机上的端口。本以为故障能得到恢复,但是事实并未如此。网间互联平台中的部分系统还是无法访问,再次查看ARP表,发现这个条目仍然存在于ARP表中,并且生存时间长达2个小时有余。这才断定是不正确的ARP表未被及时更新造成的。通过clear arp命令清除ARP缓存后,ARP表重新得以正确建立,网间互联平台中所有应用系统都能正常访问,业务恢复正常。

三、问题的分析

  1、基本网络知识

  在这里有必要先对ARP协议作简单介绍。在以太网协议中规定,同一局域网中的一台主机要和另一台主机进行直接通信,必须要知道目标主机的MAC地址。ARP协议的基本功能是通过目标设备的IP地址查询目标设备的MAC地址,以保证通信的顺利进行。而ARP表就是用来储存IP地址和MAC地址的缓冲区,其本质就是一个IP地址与MAC地址的对应表,表中每一个条目分别记录了网络上主机的IP地址和对应的MAC地址。局域网中一台主机要与另一目标通信时,首先查询交换机ARP表,如果表中已经建立了通信目标的ARP条目,则直接通过ARP表查找目标设备的MAC地址,将数据包发送给通信目标;否则就要广播一个ARP请求,目标接收到这个ARP请求后生成一个ARP响应包来响应这个请求,交换机据此将这条MAC地址和IP地址的映射关系加入到ARP表,ARP表能否正确建立将直接影响到网络的连通性。

  ARP表还有个老化时间,ARP表中某条IP地址和MAC地址对应表的生存时间到达老化时间而又没有收到该条的更新就会删除这条对应表。不同网络设备类型默认老化时间不同,思科交换机的ARP表老化时间默认为4小时,华为或H3C交换机ARP表老化时间默认为20分钟。

  2.故障分析

  (1)由于发生了IP地址冲突,冲突主机进行首次通信时发送ARP请求更新了ARP表中该IP地址对应的MAC地址,于是网间互联平台发起访问所需IP地址在交换机ARP表中就建立了不正确的ARP表,导致网间互联平台部分系统访问不正常,这就是故障的开始。

  (2)在发现IP地址冲突并关闭冲突主机所在交换机端口后,网络故障依然长时间未得到恢复。关闭冲突主机所在交换机端口后,冲突IP地址不存在了,网间互联平台将继续发起访问,但发起的访问并非首次通信,只会从已有ARP表中查询,不会发送ARP请求更新ARP表项,而ARP表项中的MAC地址又不正确,所以导致网络故障继续存在。

  (3)由于内网使用的是思科交换机,ARP表老化时间默认是4小时,所以在长达124分钟的时间里这条不正确的ARP表一直存活致网络长时间中断,如果没排查到ARP表问题,要等到4小时后该ARP表项老化更新后故障才能恢复,这对实时性要求较高的应用系统来说是无法接受的。而如果是由于ARP表项老化更新后故障排除,通信恢复正常情况发生,将导致查找此次网络故障原因更加困难。

  3.预防办法

  (1)通过命令更改ARP表老化时间,以缩短因不正确ARP表长时间存活导致网络故障的恢复时间。思科交换机在接口下使用arp timeout指令,H3C交换机在全局配置模式下使用Arp timer Aging指令。

  (2)通过手动地指定静态ARP映射条目进行静态映射,以防止不正确ARP表的建立。思科交换机在全局配置模式使用Arp Ip—Address Hardware—Address type指令,H3C交换机下使用Arp Static Ip—address Hardware—Address指令。

四、总结

  在局域网中两台设备通信都是要通过交换机ARP表来建立连接,ARP表是否正确建立将直接影响到网络的连通性。可见检查交换机ARP表是排查网络故障一个非常有效的手段,尤其是在多种设备共存的复杂网络环境下。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章