大家好,欢迎来到IT知识分享网。
介绍在网络出口设备上配置NQA探测主用链路的可达性并且联动静态路由,但是在主用链路失效时,NQA联动静态路由不生效的故障案例。
组网情况
如图1所示,两台CE6850设备组成堆叠系统,作为数据中心的出口连接运营商网络。运营商提供了两条链路连接堆叠系统,其中一条作为主用链路,一条作为备用链路。但是现在的组网中,运营商的专线没有直接连接堆叠系统,而是连接托管机房的两台S9300设备,然后从S9300设备连接堆叠系统。为了保证主用链路侧S9300的上行链路故障时堆叠系统的流量能够快速切换到备用链路上,需要在CE6850设备上配置NQA探测主用链路侧运营商IP地址和联动静态路由功能。
图1 NQA探测及联动静态路由
现象描述
配置完成后,当主用链路侧S9300的上行链路故障时,CE6850上配置的NQA功能没有生效,堆叠系统的默认路由依旧是指向主用链路侧,从而造成业务异常。
原因分析
- 主用链路侧S9300的上行链路故障时,查看CE6850的路由表信息,发现主用链路的路由没有进行切换。原因可能是NQA联动静态路由不生效,需要进一步查看NQA运行的历史信息。
- 在CE6850设备上执行命令display nqa history,查看NQA运行的历史信息,由此可知NQA已经正常运行,需要进一步查看NQA运行的结果。[~CE6850-1] display nqa history T/H/P = Test ID/Hop ID/Probe ID NQA entry(NQA, NQA1) history: —————————————————————————————– Index T/H/P Response(ms) Status Address Time —————————————————————————————– 1 300/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:25.530 2 301/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:27.535 3 302/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:29.534 4 303/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:31.537 5 304/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:33.528 6 305/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:35.528 7 306/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:37.531 8 307/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:39.531 9 308/1/1 1000 timeout 192.168.20.28 2015-10-29 03:43:41.532
- 在CE6850设备上执行命令display nqa results,查看NQA运行结果,由此可知当前配置下的NQA探测,每次运行结果都是no result,所以NQA和静态路由联动不成功。[~CE6850-1] display nqa results NQA entry(NQA, NQA1): test flag is active, test type is ICMP 1 . Test 351 result The test is finished Send operation times: 1 Receive response times: 0 Completion: no result RTD over thresholds number: 0 Attempts number: 1 Drop operation number: 0 Disconnect operation number: 0 Operation timeout number: 1 System busy operation number: 0 Connection fail number: 0 Operation sequence errors number: 0 RTT Status errors number: 0 Destination IP address: 192.168.20.28 Min/Max/Average completion time: 0/0/0 Sum/Square-Sum completion time: 0/0 Last response packet receiving time: 0000-00-00 00:00:00.0 Lost packet ratio: 100 % 2 . Test 352 result The test is finished Send operation times: 1 Receive response times: 0 Completion: no result RTD over thresholds number: 0 Attempts number: 1 Drop operation number: 0 Disconnect operation number: 0 Operation timeout number: 1 System busy operation number: 0 Connection fail number: 0 Operation sequence errors number: 0 RTT Status errors number: 0 Destination IP address: 192.168.20.28 Min/Max/Average completion time: 0/0/0 Sum/Square-Sum completion time: 0/0 Last response packet receiving time: 0000-00-00 00:00:00.0 Lost packet ratio: 100 % 3 . Test 353 result The test is finished Send operation times: 1 Receive response times: 0 Completion: no result RTD over thresholds number: 0 Attempts number: 1 Drop operation number: 0 Disconnect operation number: 0 Operation timeout number: 1 System busy operation number: 0 Connection fail number: 0 Operation sequence errors number: 0 RTT Status errors number: 0 Destination IP address: 192.168.20.28 Min/Max/Average completion time: 0/0/0 Sum/Square-Sum completion time: 0/0 Last response packet receiving time: 0000-00-00 00:00:00.0 Lost packet ratio: 100 %
- NQA与静态路由联动是在NQA测试例检测到链路故障时(即Completion为fail时),设备才会将这条静态路由从IP路由表中删除。而Completion为no result表示该NQA测试正在进行,还没有得到结果,所以NQA联动静态路由功能失效,设备没有进行路由的切换。
- 查看CE6850的NQA配置,发现配置NQA测试例发送探测报文的时间间隔(interval)为1s;NQA测试例自动执行测试的时间间隔(frequency)为2s;NQA测试例一次探测的超时时间(timeout)为1s。# nqa test-instance NQA NQA1 test-type icmp destination-address ipv4 192.168.20.28 source-address ipv4 192.168.40.28 interval seconds 1 timeout 1 frequency 2 start now # ip route-static 0.0.0.0 0.0.0.0 10.1.11.28 preference 40 track nqa NQA NQA1 //主用链路 ip route-static 0.0.0.0 0.0.0.0 10.1.12.28 //备用链路
- 缺省情况下,一次NQA探测需要发送探测报文的个数(probe-count)为3,待探测报文都回应或者在timeout时间内没有回应,得出一次NQA探测结果,而该举例中的探测结果一直都是no result。原因是在该举例中,完成一次NQA探测的时间为interval*probe-count=1*3=3秒,而NQA测试例自动执行测试的时间间隔为2秒,即NQA探测到2秒时就要自动执行下一次探测,此时测试还没有完成,所以测试结果为no result。
- 根据上面所述,导致NQA联动静态路由功能失效的原因是NQA测试例自动执行测试的时间间隔设置不合理。
操作步骤
在配置ICMP测试例时,命令timeout、probe-count、frequency和interval之间有制约关系,具体如下:
- NQA测试例发送探测报文的时间间隔interval必须大于一次探测的超时时间timeout。
- 自动执行测试的时间间隔frequency必须大于发送探测报文时间间隔interval*一次NQA测试发送探测报文数目probe-count。
根据上面的限制调整frequency、interval和timeout的取值。
调整后的NQA主要配置:
# nqa test-instance NQA NQA1 test-type icmp destination-address ipv4 192.168.20.28 souter-address ipv4 192.168.40.28 interval seconds 30 frequency 120 start now
总结与建议
- NQA测试例中的相关参数必须满足一定的关系才能保证探测成功,所以在配置时必须要满足约束关系。
- NQA是一种秒级的探测技术,为了提高探测速度,可以采用BFD技术进行替代。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/165198.html