—
美国断供铁拳袭来,外资合作伙伴被迫分手,华为不得不为自己无比庞大的系统和数据自建一套ERP系统。
来源 / 中信出版集团《质量为纲》
作者 / 田涛 殷志峰 彭勇
01
02
陶景文自己也没有信心:“要在不影响业务的情况下替换ERP系统,就像把人的神经系统抽出来,还要在这个人活着的时候把它连接回去,同时保证任何一个器官都不出问题,这是多么难的一件事。”
ERP是什么?为什么这么重要?替换它为什么这么难?
为了便于读者理解ERP的概念,我们先举一个例子。假如一位个体户经营一个煎饼铺子,需要管理鸡蛋、面粉、大葱等十几种食材,他通过眼看心算就能管得过来;假如他经营一家便利店,涉及几十、上百种商品的进、销、存和价格,那光靠他的脑袋就不行了,过去要用账簿和算盘,现在要用到电脑表格;假如他经营的是一家大型超市,涉及成千上万种商品的进、销、存,以及管理、会计,即便他拥有牛顿、爱因斯坦的大脑也算不过来,单纯的电脑表格也不够用了,这时就需要用到类似ERP的管理软件系统。
诺贝尔经济学奖获得者科斯提出,企业的本质就是一种资源配置的机制。ERP系统就是支撑企业资源配置的软件系统,中文全称为“企业资源计划”。
03
张国斌是一位资深的IT专家,2005年是带着荣誉感和使命感来维护这套系统的,把它当作大熊猫一样悉心看护。”维护团队对原厂ERP系统有着一种又爱又恨的复杂情感,每一次升级、每一次优化、每一次账务月结,都如履薄冰。
ERP系统被断供停服之后,大家都很着急,怕系统突然崩溃。公司的要求是:哪怕是挖沟、建土围墙,也要把ERP系统先保护起来,不能让20多万名员工回到用算盘算账、用鸡毛信传递信息的时代。
除了系统本身可能出现故障,张国斌还有一个担心,就是来自外部的蓄意破坏。系统会不会被人为切断?或被黑客恶意攻破?他知道,从技术角度看,凡事皆有可能,不能有任何侥幸心理,IT系统维护也遵循墨菲定律:如果事情有变坏的可能,不管这种可能性有多小,它都会发生。
为了防止人为破坏,技术团队第一时间采取了应急措施:断网。即通过软件防护,关闭外网接口;在内网构建页面保护罩,缩小暴露面,保护系统免受攻击。
要让这台没有维修保养的“老爷车”继续跑下去,面临着三大挑战。第一是硬件服务器即将到生命周期末期,无维保、无备件,硬件极易损坏;第二是软件补丁不可获得,也没有专家支持,出现问题难以修复;第三是安全漏洞与黑客攻击风险。
张国斌优先要解决的问题,是组建系统维护团队。原厂专家撤离后,华为除了集中自有维护人员,也紧急在社会上招聘业界专家,第一批就招到多位熟悉原厂ERP系统的专家,解了燃眉之急。这个团队全天候监控,主动运维,保障了系统暂时平稳运行。
技术团队联合公司网络安全部门,在很短的时间内构建了一套有五层围栏的保护罩,包括防止用户账号被盗用的“身份围栏”,防止网络渗透的“网络围栏”,防止主机软件漏洞入侵的“主机围栏”,防止ERP系统原生漏洞入侵的“应用围栏”,防止数据删除或篡改的“数据围栏”。
他们还建立了同城双活、异地容灾、三重备份等机制,保障了老ERP系统的极限生存,即在发生数据删掉、软件包甚至备份库被破坏的情况下,业务数据仍然能够恢复。
由于系统存储容量达到极限,为了给“老爷车”减负,团队将一些历史文档和旧数据进行归档,给生产环境留下了更多空间。同时向公司建议,进行合同关闭清理、清除历史数据,力求把系统总容量使用占比控制在65%的安全线以下。
经过张国斌团队的努力,A计划取得了良好的进展。2019年11月的一个夜晚,他向陶景文报告:“现有系统的稳定性和安全性都得到了有效防护,我们判断,这台‘老爷车’至少可以再跑两年。”
大家都松了一口气。
夜晚的园区灯火通明,后勤部门在办公楼旁边的草坪上搭起了“星光夜市”,他们支起帐篷,摆上户外桌椅,为大家提供免费的夜宵。忙碌了一天的员工三两成群,聚在一起喝咖啡,享用点心和水果。
一旁的步道上,喜欢夜跑的人开始行动了,张国斌也在其中。从他办公的C区跑到A区,一个来回是两公里,晚上只要有空,他都会坚持跑两个来回。跑步的同事不少,在一些有车辆出入的路口,公司贴上了温馨提示:“星光不问赶路人,夜跑同学请留心。”张国斌留意到路边新建了一排充电桩,好多员工的新能源车正在这里充电,听说还是免费的。他戴着蓝牙耳机,听着音乐,穿过园区小树林,心想,可真是一条“充电”的好路线。
张国斌并不是一个特别爱运动的人,他跑得很慢,或者说只是比走路要稍快一点,30分钟跑完两个来回,已是大汗淋漓。和其他夜跑同事不同的是,他不仅是为了健身而跑,更是为了生存而跑。
因为他患有心血管疾病,那段时期越发严重,医生嘱咐他一定要减肥,否则可能会有更坏的情况发生。于是,在给老ERP系统减负载的同时,他也给自己制订了目标:每个月必须减重一公斤。最终,他成功减重十多公斤。
他说,那段时期,他和公司的目标是完全一致的,就是要活下来。好消息是,两者都达成了目标。
1. 大机切换
为了进一步延长现有系统的生命周期,A计划中还有一个举措:把原厂的硬件服务器换掉。
替换硬件服务器的任务由周启涛主导。他是资深ERP专家,在读研究生期间就学习ERP相关理论,毕业后在业界做了4年ERP系统实施与维护,之后在华为又做了10年维护工作,对原厂ERP系统有着深刻的理解。
华为ERP系统数据量大,对硬件性能要求非常高,只有原厂的软硬件一体的机器才能运转起来。一体机有着炫酷的设计,外表是银灰色的工业化风格,镂空的前柜门上写着一个大大的“X”,机器有2米多高,重量接近3吨,因为体型庞大,所以俗称“大机”。
大机安装在华为的数据中心内,这是一座有着严密防护措施的现代化建筑,确保机器稳定运行和数据安全。包括周启涛在内的所有工作人员或其他来访者要进入机房,都要经过数道门禁认证,签署承诺书。
在经过堪比机场安检的程序后,再换上专用反光背心,还要把手机所有摄像头用贴纸封上。踏入机房,首先会踩到一块黏糊糊的胶垫,以粘走鞋底的灰尘。接下来便会看到一排排比普通人高出一头的服务器,64台一组,排列得整整齐齐,随着指示灯的闪烁和散热风扇的嗡鸣声,这些机器为华为全球的IT系统提供着算力与存储空间。
每次进入机房,周启涛都有一种强烈的秩序感,空间的规划、机器的摆放、线束的布置以及温度的控制,一切都井井有条。但这种秩序只是一种肉眼可见的表象,在纳米尺度的器件之中,在由代码构成的虚拟空间里,隐藏着各种看不见的危机,随时都有可能爆发。
当时正在使用的这组性能强悍的原厂大机,在ERP系统庞大的数据负载之下,也显得非常脆弱。自2017年春节投入使用以来,它连续跑了1000多天,从未休息过。这些年来,它支撑着ERP系统运行,经历过无数次数据洪峰,周启涛团队小心翼翼地照看着它。
由于被制裁,华为无法购买新的大机,现有大机也得不到原厂维保,出现重大故障的概率越来越高。周启涛一直有个大胆的想法,就是用华为自研的服务器替换掉原厂大机。但自研服务器一直是作为备用机运行的,从未正式启用。如果直接替换,服务器CPU(中央处理器)使用率将达到100%,系统可能会立刻崩溃。
面对这个瓶颈,从业界招聘来的技术专家李凌云通过性能优化攻关,将原厂大机的数据库负载量降低了40%,这使得大机切换的设想成为可能。
自研服务器即将“转正”,这是一次前所未有的尝试。
2020年8月8日,夜暗如水,办公楼灯火通明,现场近50人,远程200多人,等待大机切换时刻的到来。
深夜1点,作为现场总指挥,周启涛一声令下:“启动大机切换!”
会议室里异常安静,只听见敲击键盘的声音,大家的关注点都集中到了切换大屏。
一切都在有序地进行:停应用,停服务,停大机数据库,启动自研服务器。
“服务器启动成功!”
“外围应用连接成功!”
“并发管理启动正常!”
......
工作组成员逐个检查验证任务,外围系统验证也同步启动。
深夜2点,正当大家准备松一口气时,不料各个验证组陆续爆发问题,
让技术保障团队应接不暇,问题迟迟无法解决,现场气氛顿时紧张起来。
数据库管理员贝承发紧急进行检查,发现有部分服务注册不上,技术人员尝试各种方法后都不奏效。
深夜2点30分,到了决策点,运维经理请示周启涛:“并发管理器和服务不可用,存在高风险,如果分析和恢复时间过长,将会造成大范围的周边系统不可用,导致业务停顿。原因还需定位,但是时间太紧,请决策是否回退。”
维护团队近一年的努力,一幕幕在周启涛眼前闪过,他实在不想就此放弃,还想给技术团队争取一点时间。他看了看表说:“还有时间,大家放松些,继续定位问题。”
周启涛的镇定给团队带来了信心。
切换团队开始快速排查各种可能。难道域名解析异常了?但域名、网络都是正常的,该重启的都重启过了。
贝承发突然想到,5年前他遇到过的一个类似问题:数据库配置与ERP应用配置冲突。这是一个很隐蔽的软件缺陷。
随着一串串指令的输入,系统成功接通,办公室里一片欢腾。接下来,团队齐心协力,完成ERP系统及所有外部应用的验证,系统运行平稳,无任何异常。
大机切换成功完成!
周启涛看着这个相识多年的伙伴被替代,心中竟然有些不舍。不过,这台机器还不会下岗,它将承担新的使命—作为自研服务器的备用机。而周启涛也有了新的使命:从老ERP系统的维护者,变成新ERP系统的建设者。在这一刻,人和机器都在重新定义自身的价值。
周启涛抚摸着银灰色的金属机框,自言自语道:“这真是一台好机器。”大机的一排指示灯在闪烁,仿佛在回应他说:“你也是一个好人。”
“如果机器拥有意识,你会甘愿做一个‘备胎’吗?”
“我的价值,是使用我的人来评价的。”
“那么,老伙计,再见了。”
“再见了,我会站好最后一班岗的。”
经过一年多的努力,“老爷车”换了新底盘,焕发出勃勃生机,还可以持续跑下去。张国斌团队赢得了这场生命与时间的赛跑,为接下来“渡河”行动暂时解除了后顾之忧,提供了5年左右的时间窗口。
陶景文心里有底了,终于可以撸起袖子,放手一搏了。
04
为了验证这些设想的可行性,项目组决定,先以一家规模中等的子公司作为标靶,开发出一个轻量级的ERP系统,率先进行“换芯”验证,“强渡”成功后,再逐步扩展到全球其他区域。
05
好一阵子,她都没听清来电在说什么,只是觉得声音好小。后来才发现,自己把手机听筒拿反了。
这次终于听清楚了—“情况是这样的,从新系统抓取数据出错,新老订单系统的数据无法整合,虽然只涉及38行订单,但是财务报告容不得半点差异,系统可能面临回退!”
她当时有点蒙,心里快速盘算着,系统是不可能回退的,交易已经放开了,回退就意味着上线失败。她脸都没顾得上洗一把,就一路小跑回到了切换现场。她环顾了一下四周,看着一张张疲惫的面庞,坚定地对大家说:“没有退路,只能向前,相信我们一定还有办法挽救。”
在她的快速统筹下,供应、财经、数据湖领域的专家们迅速集结到位。
大家都是头一回遇到这个问题,多少有些不知所措。张晓燕结合自己丰富的项目经验提出:数据问题本质上是数据溯源的问题,只要我们能够追溯到源头,就能找到线头,逻辑自然就能理顺了。
在她的启发下,供应订单专家快速理清思路,用数据推导的方式快速还原了数据血缘关系,希望瞬间燃起。早上7点,项目组关键领导全部到达切换现场,成立了临时“指挥所”。在华为,“指挥所”永远设置在最前线。
加入我们
专题推荐