1.Neutron的问题

openvswitch卡死导致主机所有网络中断

问题:L3 agent down了,所有的网络连接不上,L3所在的物理机点的公网IP地址访问不了

dhcpagent 服务器down了,导致所有的云主机获取不到地址,所有云主机的公网IP访问不到

现象:

网络中断,所有的公网IP地址访问不到

排查过程:

1、查看openvswitch运行状态

2、查看数据流量的流向:

查看所有ovs桥

ovs-vsctl show

查看ovs数据流

ovs-ofctl dump-flows br-int 出现卡住的现象,没有任何相应,

由于ovs-vsctl show是从ovsdb取的数据,其正常显示表示ovsdb-server进程正常运行。ovs-ofctl是与ovs-vswitchd进程通信,命令卡住应该是ovs-vswitchd进程没有响应客户端请求导致。

3、查看日志

vim /var/log/openvswitch/ovsdb-server.log 日志

WARN|unix: send error: Broken pipe

2015-09-07T19:43:59.058Z|00010|reconnect|WARN|unix:connection dropped (Broken pipe)  //出现隧道破坏的警告

查看/var/log/openvswitch/ovsdb-server.log

出现类似下面的行

|WARN|Unreasonably long 16518ms pollinterval

表明ovs-vswitchd可能因为某个线程死锁或导致不响应。

4、查看进程卡在那一步:

strace -p pid

pid是指进程的ID 在这里也就是ovs-vswitchd的PID

解决办法:

重启openvswitch服务

使用cron 任务检测

cat /etc/cron.d/monitor_vswitchd

* * * * * root timeout -s SIGKILL 2sovs-ofctl show br-mgmt || (date>>/var/log/mon_openvswitch.log;serviceopenvswitch restart >>   /var/log/mon_openvswitch.log 2>&1 )

升级内核

长期来说还是不要用cron来做,而是升级内核比较好。升级到2.6.32-504.16.2.el6.x86_64后问题解决。

Nentron DHCP Agent重启和漂移时,部分虚拟机断网

现象:

DHCP Agent重启或漂移时,部分虚拟机断网

问题原因:

在虚拟交换机比较多时,qdhcp的netns也比较多。漂移或者重启Neutron DHCP agent后,需要重建这些资源,时间会比较长,有时长达3-5分钟。如果在这个周期里正好有虚拟机需要续租,向DHCP服务器发送的请求就没有响应,最后超时续租失败,就算DHCP服务回复后,也不会重新尝试获取IP地址。这时进入虚拟机命令行,ifup一下eth0就好了。

对于CentOS,我们建议修改dhclient的配置文件,调长续租失败时重试的超时时间,以等待DHCP服务器的恢复。

解决方法:

修改配置文件/etc/dhcp/dhclient.conf

timeout 300;

这样CentOS虚拟机续租的请求会持续重试5分钟,以等待DHCP服务恢复。

调整网卡RX ring buffer长度,解决网卡丢包问题

问题:公有云平台:compute1和compute4两台计算节点的存储网络,不能互通。

解决过程:

1.compute1节点ping compute4节点,在compute1和compute4两台节点上使用tcpdump抓包发现,compute4上有ICMP request和ICMP reply。但compute1节点并没有接收到ICMP reply消息,并且有xxxpackets dropped by interface的提示。

2.登录到pica8交换机,检查两台机器的物理连接和链路层连接,正常。

3.查看compute1的物理网卡,发现在RX上有大量的丢包:

[root@compute1 ~]# ifconfig bond2

bond2    Link encap:Ethernet  HWaddr00:0A:F7:5D:4A:E2

inet addr:172.16.3.51 Bcast:172.16.3.255 Mask:255.255.255.0

inet6 addr: fe80::20a:f7ff:fe5d:4ae2/64 Scope:Link

UP BROADCAST RUNNING MASTER MULTICAST MTU:1500  Metric:1

RX packets:5974542045 errors:8394 dropped:1892018 overruns:8394frame:0

TX packets:30430136566 errors:0 dropped:0 overruns:0 carrier:0

collisions:0 txqueuelen:0

RX bytes:5387974623010 (4.9 TiB) TX bytes:28489033161925 (25.9 TiB)

4.使用ethtool --show-ring 或者ethtool -g 命令查看bond2上真实物理网卡的RX/TX ringbuffer:

[root@compute1 ~]# ethtool --show-ring p6p2

Ring parameters for p6p2:

Pre-set maximums:

RX:    4078

RX Mini:   0

RX Jumbo:  0

TX:    4078

Current hardware settings:

RX:    453

RX Mini:   0

RX Jumbo:  0

TX:    4078

5.怀疑是网卡上的ring buffer参数设置过小,无法处理从网卡上接受到的以太网数据帧。

6.调整RX ring buffer的大小,通过ethtool--set-ring或者ethtoo -G

root@compute1 ~]# ethtool --set-ring p6p2rx 4078

Cannot set device ring parameters:Input/output error

[root@compute1 ~]# ethtool --show-ring p6p2

Ring parameters for p6p2:

Pre-set maximums:

RX:    4078

RX Mini:   0

RX Jumbo:  0

TX:    4078

Current hardware settings:

RX:    4078

RX Mini:   0

RX Jumbo:  0

TX:    4078

7.这样的修改,在机器reboot会回到原来的配置,建议在写入到/etc/rc.local下

ethtool -G p6p2rx 4078

ethtool -G p7p2rx 4078

网卡驱动缺陷导致的问题

现象:网卡驱动缺陷导致offload后ping正常但TCP连接慢或断的问题诊断与解决

常见的原因有:

1.MTU问题

确认物理服务器网卡和上联交换机MTU是否有问题;一般硬件厂商的MTU默认是1500,当然也有例外,像Pica8的SDN交换机,MTU值在小于1512会丢包。

2.物理网卡offload

Fuel部署时,默认开启了物理网卡offload属性。由于开启了offload属性,有可能会出现TCP或者UDP检验和不一致导致的丢包或重传。

解决方法:

TCP校验和会确保整个报文在传输过程中不会发生变化,如果校验和不一致,TCP会丢弃这个报文或者触发超时重传。TCP的校验和是必须的,UDP的校验和是非必须的。此时,建议将rx和tx关闭。

RX Checksum:

在开启此功能后,物理网卡收到一个数据包时,网卡会代替内核协议栈计算传输层校验和,并且只在校验和正确的情况下将数据包交由内核处理,以节约系统CPU资源。

关闭此feature:ethtool -KDEVNAME rx on|off

TX Checksum:

这个是在数据包发送之前,由网卡计算校验和;开启此选项,内核会随机填充TCP或UDP的检验和字段,正确的填充会由物理网卡来完成。

关闭此feature:ethtool -K DEVNAME tx on|off

   持久化offload设置

可以编辑/etc/rc.local加入ethtool命令。或者利用CentOS的ifcfg-脚本。譬如要关闭eth0的tx和rx的checksum offload,可以编辑下面的文件/etc/sysconfig/ network-scripts/ ifcfg-eth0加入一行 ETHTOOL_OPTS="-Keth0 rx off;-K eth0 tx off"然后ifup eth0,设置便生效。

转载于:https://blog.51cto.com/hh666/1919007

常见故障 Neutron相关推荐

  1. 操作系统中进程并发运行的过程_三种电磁流量计运行过程中常见故障解决详情!...

    原标题:三种电磁流量计运行过程中常见故障解决详情! 昨天给大家介绍了电磁流量计的一些典型故障,今天我们继续来谈电磁流量计的故障问题!电磁流量计在正常的保养与维护之后,在正常使用的过程中依旧是会因为当时 ...

  2. 萨克斯维修服务器,萨克斯常见故障修理方法

    原标题:萨克斯常见故障修理方法 1.如果某一按键突然停止工作了,那就检测一下相应的弹簧,如果是破裂或是遗失,可以暂时用硬橡胶带来代替; 记住在演奏完毕后要除去橡胶带,因为从长远来看它可能破坏你的被覆盖 ...

  3. c++判断双击间隔_录井工常见故障判断处理

    录井工 1.色谱仪鉴定器点不着火的故障现象.原因是什么?如何处理? 故障现象: (1)按动点火开关点火丝不加热,无点火迹象. (2)用点火器或打火机进行手动点火时,无"嘭"的点火声 ...

  4. 老男孩教育每日一题-2017年4月28日- MySQL主从复制常见故障及解决方法?

    MySQL主从复制常见故障及解决方法? 1.1.1故障1:从库数据与主库冲突 show slave status; 报错:且show slave status\G Slave_I/O_Running: ...

  5. 伺服驱动器接线怎么画_百格拉伺服驱动器维修常见故障现象及处理方法

    百格拉维修故障方法如下 百格拉维修故障方法如下: 1.增加伺服驱动器的减速时间.有些时候也没法判断到底是不是数控系统本身故障百格拉伺服驱动器报警故障维修 或者要在基本设置下更改参数设置,请务必输入相应 ...

  6. SQL数据库常见故障及解决方法

    SQL数据库常见故障及解决方法 参考文章: (1)SQL数据库常见故障及解决方法 (2)https://www.cnblogs.com/chenduzizhong/p/8990334.html 备忘一 ...

  7. 低压抽屉柜常见故障处理方法_电磁流量计的常见故障及处理方法

    在实际的工业生产中,流量管理需要持续监控和准确的测量.如果流量计测量发生故障异常情况,可能会导致产品生产品质和生产效率降低,严重的可能会导致生产线上的作业机械损坏.电磁流量计在工业测流中很常见,下面废 ...

  8. 电脑常见故障处理_关于密封仪、密封试验仪器在使用上的常见故障及维护方面...

    广州标际生产的密封试验仪GB-M1严格按照GB/T15171软包装密封性能试验方法的有关规定设计制造.用来检测塑料包装袋.包装容器的密封状况,应用于包装.食品.药品.日化等行业.通过试验可以有效地比较 ...

  9. 软件常见故障的现象、故障排除的方法

    软件常见故障的现象: *计算机自检后无法初始化系统--这一般是由于系统启动相关的文件被破坏所致. *计算机的设备驱动程序安装不当造成设备运行不正常. *运行缓慢-系统由于长期运行产生了大量的垃圾文件. ...

最新文章

  1. 2021首期Nature封面:牛津大学ML算法实现10万高压非晶硅原子的模拟​ | AI日报
  2. Cookie对象的应用
  3. 前端需要了解的 Cookies 和 WebStorage
  4. TCP keepalive的详解(解惑)
  5. c++指定枚举占一个字节
  6. 【TensorFlow】Win7+Anaconda+python3.6+Tensorflow1.9安装教程
  7. 实践分享丨物联网操作系统中的任务管理
  8. 1075 - Incorrect table definition;there can be only one auto column and it must be defined as a key
  9. java编程思想第四版第十八章总结
  10. MongoDB,分组,聚合
  11. 变量和数据结构的赋初值
  12. jni开发-GetMethodID与CallObjectMethod的坑
  13. C++中使用模板,new创建2维动态数组
  14. 博文视点大讲堂第29期——2天玩转单反相机
  15. request python菜鸟教程_Python之学习菜鸟教程踩的坑
  16. 斯坦福 计算机 学什么,斯坦福大学本科计算机专业学习哪些课程?
  17. js 设计模式(23种)
  18. 制造业案例 | 美创助力纳爱斯集团三层业务安全审计实践
  19. git加速 用谷歌浏览器插件
  20. IGBT静态参数测试系统可测项目有哪些?

热门文章

  1. 【BZOJ2820】ygy的gcd
  2. 优先队列——PriorityQueue详解
  3. CSS高级选择器+块级元素,行内元素的特点+CSS定位+logo的做法
  4. Vue 3 迁移策略笔记—— 第30节:新增功能——Teleport
  5. Teleport 开源堡垒机安装使用
  6. CentOS官方推荐的RPMforge软件仓库安装方法[linux]
  7. 十八种方法提升淘宝店流量
  8. 机器人聊天软件c#_用c#快速实现的智能聊天机器人
  9. JS处理32位整型位运算
  10. 如何实现生产者消费者模式