在Linux系统下设置刀片网卡绑定后,发生FAILBACK时会导致丢包现象

适用机型:
所有BladeCenter; 所有BladeCenter H; 所有BladeCenter HS20; 所有BladeCenter HS21; 所有BladeCenter HS40; 所有BladeCenter JS20; 所有BladeCenter LS20; 所有BladeCenter T

文档内容:
故障现象
在刀片环境下设置了网卡绑定,驱动的工作模式为active-backup(mode 1),会发生丢包现象,持续约2分钟的时间。故障发生在failback到主端口的时候。尝试ping该端口会出现连续的timeouts,大约2分钟,具体多长时间也会跟交换机模块型号有关。丢包导致应用程序会话的中断。

受影响的机型:
BladeCenter HS20, Type 1884, any model
BladeCenter HS20, Type 7981, any model
BladeCenter HS20, Type 8678, any model
BladeCenter HS20, Type 8832, any model
BladeCenter HS20, Type 8843, any model
BladeCenter HS40, Type 8839, any model
BladeCenter JS20, Type 8842, any model
BladeCenter JS21, Type 8844, any model
BladeCenter LS20, Type 8850, any model
BladeCenter LS21, Type 7971, any model
BladeCenter LS41, Type 7972, any model

受影响的选件:
Ethernet IBM eServer BladeCenter Gigabit Ethernet Expansion Card, Option p/n 73P9030

Ethernet IBM eServer BladeCenter SFF Gigabit Ethernet Expansion Card, Option p/n 26K4842

解决方法:

使用如下Linux bonding参数: miimon=100 updelay=135000 . 不要使用参数 arp_interval

附加信息:

在刀片中心环境中,failover通常发生在刀片中心连接主网卡的交换模块发生断电或者被拆卸的时候。重新恢复供电后,会failback。发生这种现象是因为,在刀片和交换模块内部的以太网联接就绪时,linux绑定驱动程序会马上将网络负载failback到主网卡。这个连接几乎是立刻就绪,但是交换模块需要在上电后几秒钟的时间完成初始化。就在这几秒钟的时间内,交换模块无法传递数据报。按照上述方法设置updelay参数,可以防止在交换模块完成初始化,并且可以传递数据报之前发生failback。
>>>
>>>
相关学习园地栏目:
>>>
相关文档: