最近一个月,我们在进行某集团的邮箱升级和迁移的项目,其中一个非常重要的工作任务是把客户的邮箱从无锡迁移深圳机房,由于客户对邮件服务的可用性要求高,所以我们最终决定采取Exchange 邮箱迁移的办法。这一个多月几乎在煎熬中度过,但是经历过痛苦之后,认真思考发现在这个项目中收获很多。Exchange排错的心得和大家分享, 我们定义本次Exchange排错为”Exchange NLB错误“, 排错的心路历程如下:

1、 你总会认为:你解决的问题应该是最后一个问题了。

本次Exchange的项目中出现了非常多的奇怪问题, 之前出现过“25000Session限制问题”,后来又出现“32Session限制问题”,就这样我就已经搞了2个通宵了,每次问题解决的时候,我都会和我们的团队成员讲“靠,这个问题应该是最后一个问题了”。

2、 悲催,迁移500个用户后问题继续出现

前天,我们刚解决了9646的错误“用户Outlook 32 Session连接的问题”,监控系统稳定运行两天后,我们决定继续对无锡的用户邮箱进行迁移,计划晚上迁移500个左右用户邮箱,迁移500个左右用户邮箱后,用户Outlook又再次出现无响应的情况,某些区域近一半用户出现该类型故障。

3、 问题出现后的分析和定位

(1) 这次问题出现后,我们快速的定位到是网络的问题。从Exchange 2010的前端到后端,或从后端到前端都出现了大量的网络丢包。如下图所示:

(2) 但是我的环境中,有两套Exchange 2010的前端NLB, 有两套Exchange 2010的后端DAG;但是仅仅是NLB02和DAG02节点之间的网络通讯才会出现丢包;

(3) 根据这个怪异的现象,我们分析应该是和NLB、交换机、服务器网卡配置密切相关;

(4) 但是我们两套NLB的网卡是一样的、DAG的网卡也是同一个型号的、服务器连接在同一个交换机上,型号是Juniper;

(5) 因此,当天晚上我们计划对网络进行变更测试:

1) 变更1:更换网线进行测试,问题依旧;

2) 变更2:更换交换机端口测试,问题依旧;

3) 变更3:离线服务器,使用另一个计算机,使用原来的端口和IP地址,ping发现不丢包。

(6) 抓包测试,发现存在大量的数据包重传的测试。这个时候已经到凌晨2点了,网络组同事和Juniper的工程师都说要回去了。

(7) 网络组和Juniper工程师回去后,只剩下我们嘉为的工程师和甲方的工程师,也许搞IT的人注定需要忍受寂寞和孤单。

(8) 我们整了点“康师傅”,继续开始奋斗;

(9) 我们在看了看画在白板上的拓扑图,发现网络交换机没有换过,我们决定需要更换一个H3C的交换机试试。

(10) 下去找到网络组工程师,在进行风险评估后,决定尝试把DAG的节点转移到H3C的交换机上进行测试,在花费两个小时的测试和抓包后,还是失望的结果;

(11) 。。。。。。已经到了早上7点钟了。

4、 问题解决无望的时候,Workaround思路

(12) 甲方工程师说,之前出现过类似的问题,我们是通过更换服务器进行解决的;

(13) 早上9点,我们需要和周总进行该问题解决的汇报。准备申请服务器资源来解决这个问题;

(14) 周总说,你们先整理资源申请的邮件。

5、 王老吉的幸运,问题的解决峰回路转

(15) 王吉是我们的同事,王老吉是他的外号,因为他做项目一向比较顺畅,我们调侃他:王老吉你这个福将,这次不灵了。

(16) 早上8点半,幸运降临,王老吉吃完我买回的早餐,开始对服务器再次进行检查:居然发现一个奇怪的问题,当他运行一个ARP –d的命令后,网络丢包就会减少,但是过一会有再次出现大量丢包。

(17) 9点钟,和周总汇报,王老吉中断测试;

(18) 9点半,我们汇报完成回来,王老吉还在继续测试中,此时网络组同事王艺也回来,王老吉和他讨论了这个奇怪的现象。

(19) 10点,王艺在服务器上执行ARP –a的命令查看,居然发现一个奇怪的现象:前端NLB的MAC地址,居然在后端DAG上显示的不一样,但是我们的NLB是单播配置,应该MAC地址一样才对呀。

(20) 奇怪的现象,也许就是导致该问题的原因:

1) 我们在客户端计算机上进行测试,添加静态MAC到服务器的ARP表格中,测试成功。

2) 我们写好命令,在1台服务器上进行添加:

netsh int ipv4 set neighbors 12 "10.0.15.10" "02-bf-0a-00-0f-0a" store=persistent

netsh int ipv4 set neighbors 12 "10.0.15.13" "02-bf-0a-00-0f-0a" store=persistent

netsh int ipv4 set neighbors 12 "10.0.15.14" "02-bf-0a-00-0f-0a" store=persistent

netsh int ipv4 set neighbors 12 "10.0.15.15" "02-bf-0a-00-0f-0a" store=persistent

netsh int ipv4 set neighbors 12 "10.0.15.16" "02-bf-0a-00-0f-0a" store=persistent

3) 完美!添加完成后,ping该服务器,没有丢包现象出现;

4) 在另一台DAG成员服务器上添加完成。

(21) 我们收集Outlook用户的反馈,客户端Outlook用户使用邮件正常,不会再出现无响应的问题。

6、 我们的总结

问题的解决和网络、操作系统、应用都是密切相关的、三方面的人员的密切配合最后该问题才解决。感谢大家在这个问题解决的过程中不推卸责任、全心全意的解决问题。

NLB无线定位服务器报警,一次异常艰难的Exchange NLB排错经历详细记录相关推荐

  1. NLB无线定位服务器报警,设备对接NLB服务器群集 - S1720, S2700, S5700, S6720 V200R011C10 配置指南-IP业务 - 华为...

    与NLB服务器群集对接的方法 如果NLB服务器直连到二层交换机LSW上(如图3-7),单播模式下直接就实现了对接,组播模式下可以通过在三层交换机Switch上配置静态ARP表项来实现对接. 如果NLB ...

  2. 无线定位服务器,智慧社区老人蓝牙APP无线定位系统方案物联网GPS定位系统手环接口...

    系统主要应用于小区内的儿童.老人及宠物的定位管理,亲属可以随时通过手机查 询他们在小区内实时的位置以及历史运动轨迹,以2D地图的方式呈现,如果离开小区 会自动报警. 系统主要由蓝牙AP定位器.蓝牙标签 ...

  3. 无线基站定位服务器,UWB定位技术的三种定位方法

    原标题:UWB定位技术的三种定位方法 UWB定位技术也称超宽带技术,与传统的窄带系统相比,具有穿透力强.功耗低.抗多径效果好.安全性高.系统复杂度低.能提供精确定位等优点.因此,超宽带技术可以应用于室 ...

  4. 基于移动位置服务器,移动定位服务器的设计与实现

    摘要: 随着移动通信技术和空间信息技术的发展,移动定位服务受到了广泛的关注,并且在公共安全服务,紧急报警服务,车辆交通管理和寻人服务等方面起着越来越重要的作用.但是现有GSM移动定位系统实现的功能相对 ...

  5. win10系统定位服务器地址,win10系统定位服务器地址

    win10系统定位服务器地址 内容精选 换一换 将NFS文件系统挂载到Windows IIS服务器时,报错路径格式不支持,挂载失败.IIS Web服务器的物理路径错误.根据可能原因进行故障排查.如图1 ...

  6. 定位系统服务器,android系统定位服务器地址

    android系统定位服务器地址 内容精选 换一换 将NFS文件系统挂载到Windows IIS服务器时,报错路径格式不支持,挂载失败.IIS Web服务器的物理路径错误.根据可能原因进行故障排查.如 ...

  7. 华为手机怎么打开位置服务器,华为手机怎么开启远程定位服务器

    华为手机怎么开启远程定位服务器 内容精选 换一换 服务器频繁死机,无法正常运行的问题往往就是系统崩溃问题,定位思路如图1所示. 网站的访问与云服务器的网络配置.端口通信.防火墙配置.安全组配置等多个环 ...

  8. 定位服务器的功能是提供用户位置信息和什么,LBS是什么意思 LBS的现有模式和功能介绍...

    LBS是什么意思?LBS有什么模式和功能?所谓的LBS的意思其实就是基于位置服务,所谓手机里的LBS软件就是很多lbs功能,比如我们常用的微博,大家都应该知道那个像小火柴一样的符号,点击后就会出现现在 ...

  9. linux服务器http进程CPU异常飙高(轮为免费矿工)

    最近两次发现服务器CPU占用率达95%左右,top 查看后发现有个进程占用异常偏高.但却不占用大量宽带资源,并且服务器在请求压力不大的情况下能正常访问,也就是不设置资源报警不易发觉. 在第一次发现时还 ...

最新文章

  1. Db4o结合Linq、Lambda表达式的简单示例
  2. 类的笔记整理__7-10__
  3. Android Weekly Notes Issue #226
  4. using IDisposable
  5. 做了3年Excel报表,换了这个报表神器后,不禁感叹:国产真香
  6. js中将html文档写入静态界面当中
  7. 电脑硬盘右击计算机就卡死,Win10电脑使用过程中莫名其妙卡死的的三种解决方法...
  8. 学以致用二---配置Centos7.2 基本环境
  9. java jsonobject 清空_有没有办法,我可以清空整个JSONObject – java
  10. 【全套完结】数字信号处理----全套Matlab实验报告【建议保存】
  11. 清华自动化大一 C++作业引爆全网,特奖得主、阿里P6:我们也做不到
  12. 最近开发了一个向QQ好友自动发送消息的程序
  13. POI java.lang.IllegalArgumentException: Merged region xxx must contain 2 or more cells问题解决
  14. windows server 2003 远程拨号服务器
  15. 阿里网盘官网网页,怎么隐藏的这么深
  16. 证券投资基金名词解释
  17. AC自动机+状压dp hdu2825 Wireless Password
  18. Leiden算法介绍
  19. 2012最新个税税率表及速算扣除数
  20. JAVA后端开发面试经典

热门文章

  1. 遇到截图后图片模糊不清,无脑获取高清图片
  2. windows11 无法登录 outlook账户的问题
  3. 男人志-男性时尚杂志
  4. inet_pton、inet_ntop函数
  5. 从深度心理学的角度看爱情
  6. 【转】浅谈温岭民间的孝文化
  7. Ubuntu系统使用ifconfig ,route命令手动设置网络接口参数
  8. 3dmax to UE4 模型制作流程与规范
  9. 安装适用于 Android 设备的 Android USB 驱动程序
  10. 菲戈挑战足球守门员机器人原理