近日,微软视窗系统和该公司别的部分应用和服务发生大规模宕机,造成多国航空、铁路、海运、金融、医疗、酒店等行业无法正常运作,众多企业和个人用户的工作和生活受到严重干扰。
微软首席执行官萨蒂亚·纳德拉当天在社会化媒体X上发文确认,为微软提供服务的安全技术企业“众击”公司发布的一项软件更新是造成这次全球性宕机的主要原因。
这起宕机事件的影响区域和严重程度十分罕见,为各国政府、行业和个人用户敲响警钟。英国工程技术学会的网络安全专家朱奈德·阿里指出,这次宕机的规模可能“史无前例”,对全球信息技术(IT)行业团队构成了重大挑战,但同时也为软件工程专业技术人员提供重要经验。
历史总是在不断重演,这一次的“蓝屏事件”与2019年欧洲“伽利略”全球卫星导航系统的崩溃何其相似,幸而我国那时也早有准备——成熟的北斗导航系统。
2019年7月13日,欧洲“伽利略(GALILEO)”全球卫星导航系统发生大面积信号异常状况,在轨工作的24颗卫星均处于不可用或测试状态,系统随即陷入瘫痪,服务一度中断达117个小时。在瘫痪事故发生前两天,伽利略的卫星导航系统就曾出现过短时间的导航异常:其卫星导航信号的广播星历没有更新。
导航星历能够理解为卫星的位置信息。在卫星发出的诸多信号中,有一部分就是关于自己的轨道参数,地面接收站要依据这一些信息推算出卫星的位置。一旦广播星历数据中断,卫星其实也处于一种“断联”的不正常状态中,虽能利用短期内的老旧星历完成常规导航定位,但对部分高精度导航应用还是会造成一定的误差影响;出现这样一种情况的同时也说明,地面站根本就没办法接受到卫星发出的信息。
中科卫星销售总监董艺解释,一般来说利用卫星导航要至少搜寻到四颗星,一颗都搜不到,那么导航系统就没什么用了。伽利略持续近五天的事故再一次把北斗导航推向前台。
在世界导航格局中,中国能占据一席之地完全要归功于2003年“北斗一代”导航系统的运行,北斗(BDS)现在也与美国GPS(Global Positioning System,全球定位系统)、俄罗斯GLONASS(格洛纳斯)、欧盟GALILEO一同被联合国卫星导航委员会认定为四大卫星导航定位供应商。
但在很长一段时间里,导航领域其实都是GPS的天下,这也是为什么直到现在,还是有很多人习惯性地把手机中的“定位服务”或“位置服务”叫做GPS,哪怕提供服务的信号来源早已经从美国的GPS变成了中国的北斗系统。
和GPS同时代建成的格洛纳斯,在技术上要稍微落后于GPS,而且卫星的寿命只有3-5年,前苏联的解体导致该系统一直难与GPS竞争。GPS是由美国军方控制的导航系统,主要包含军码和民码两种信号,前者是毫米级别,后者是分米级别。
在和平时期,GPS能为全球用户更好的提供低成本、高精度的三维位置、速度和精确定时等导航信息,所以小到手机定位,大到电网输出、超级工程的测量矫正、民航客运,不能离开几乎免费的GPS。
不过,一旦战争爆发,掌握导航系统就像掌握了最强武器。海湾战争期间,美国想要轰炸伊拉克的水电站,正常来说需要数百吨常规弹药轰开防空火力,但配备了GPS和图像精确制导的导弹,只需要两颗就能从百公里外直击目标;另一方面,美国军方控制的导航系统,也可以以国家利益为由,随时对公众加密甚至关闭。
同样在海湾战争期间,美国就曾置欧盟各国利益不顾,一度关闭对欧GPS服务,“这也可当作威慑武器,不听话我就把GPS信号关闭,随便你的船在海上迷路、你的飞机无序乱飞。”业内资深技术的人偷偷表示,正是为了打破美国在这一领域的垄断,欧盟才开始想要建立一套自己的全球卫星导航定位系统。
2002年3月,欧盟当时的15个成员国的交通部长们决定启动伽利略计划,相对于美国GPS,它的最大优点是完全基于民用,非军方控制和管理,提供最低误差不超过一米、全球精确定位服务,比GPS的民用精度还要高。
北斗系统的完全组网其实也和伽利略系统有点关系。伽利略计划当年的投资预计是34亿欧元,但欧洲各国的经济情况不一,出于各种考量,欧洲当时愿意接纳非欧盟参与者加入该项目,中国是第一个以此身份加入的国家。
2003年加入伽利略系统后,中国前前后后投资了2亿多元,但花钱并没有学到核心技术,且随着参与者增多,内部各方就项目份额和利益分配一直争论不休,这才坚定了中国独立研发自有卫星导航系统的决心,捡起了搁置多年的北斗导航系统。
现在看来这个决定是多么的明智,只有有了独立的北斗导航系统,才不会在攸关军事、民用关键环节的领域受制于人。2020年6月,随着北斗三号系统55颗导航卫星全部完成部署,北斗导航系统才真正从区域走向了全球,也是我国第一个面向全球提供公共服务的重大空间基础设施。
从细分领域来看,除了前面提到过的国家安全军事应用、民航应用外,北斗三号系统最重要的进步是在民用领域,尤其是为国内高精度定位提供了另一套重要信号系统。北斗智联董事长徐林浩曾对记者提及,北斗三号实际上提升了全球卫星导航定位的可用性和定位效率,结合自研芯片和地面基站,是实现智能驾驶的重要储备,也就是现在热议的“车路云”无人驾驶路径。
如今,原本为了与GPS系统分庭抗礼的伽利略一直进展不顺,更别提商业化推广。如果当初我们花钱就能买到别人成熟的产品,恐怕永远都不可能有自己成长的动力,从卫星到芯片莫不如是。
北斗三十年的波折经验已经给中国本土IT供应链提供了最有价值的“地图”下一步必然渗透到垂直行业的具体需求中去,突破更多断点、卡点,构建起从芯片、系统到上层软件的全面生态系统。
总部位于美国的众击公司在全球拥有超过2万客户,这中间还包括微软和亚马逊等科技巨头。该公司首席执行官库尔茨19日在社会化媒体X发文说,此次事件不涉及网络攻击,而是源自该公司为微软视窗系统发布的软件更新中存在缺陷,该问题已被识别、隔离,并已部署修复措施。
库尔茨表示,公司正在努力处理问题,但一些系统在大多数情况下要“一些时间”才能从故障中恢复过来。
相信大家都已经听说了这次全球性的系统蓝屏“灾难”,虽然第一时间大家都将矛头指向了微软,但技术分析结果表示,始作俑者其实是一家大家可能没有听说过的企业:CrowdStrike。那么这是一家怎样的企业?为什么你我都没见过它,它却能在全世界内引发连锁反应呢?
CrowdStrike是一家位于美国加利福尼亚州森尼韦尔的计算机安全技术公司,提供端点安全、威胁情报和网络攻击的安全服务,世界500强企业中有271家是其客户,其软件被包括微软、亚马逊AWS在内的一些最大的云服务企业提供商所使用,也包括主要的全球银行、医疗保健和能源公司,帮助它们检测并阻止黑客威胁。
据知情的人偷偷表示,现在欧美企业尤其是美国的大规模的公司几乎是强制安装CrowdStrike,而且它的订阅价格可一点也不便宜,每台电脑每月最高能够达到50美元,这也是它市值极高的原因之一:据市场研究机构IDC称,端点检测和响应软件市场中,CrowdStrike所占份额约为18%,仅次于微软。2024年6月其市值一度接近千亿美元,是全球市值最大的网络安全上市公司之一。
从实际使用来看,虽然CrowdStrike号称是安全防护企业,旗下CrowdStrike Falcon Sensor声称能防勒索病毒之类的,但是它的使用体验很糟糕,Windows系统上不做任何操作的情况下,CPU占用率都在20%左右,而且它的权限等级很高,对操作系统系统有很多限制,有软件开发者就曾抱怨用VS写了一个Windows程序,刚编译完了就会被它直接删除,甚至某些Python脚本里如果带了下载的功能也会被认为是病毒,所以它的防护方式属于“宁可错杀一千,也不放过一个”,十分简单粗暴。
你想悄悄关掉它?不可能,大规模的公司都有域管理和域策略,最终用户不仅关不掉,还会强制更新,甚至强制给你重启更新,这次导致的全球蓝屏事件就是因为CrowdStrike发布的软件代码更新,导致内核访问了没有分配的内存页而崩溃。因没有先做测试就直接发布了更新,再加上是强制更新,所以用户端在毫不知情的情况下就进行了更新,从而引发了集体蓝屏安全事故。
事后,生产线受一定的影响的特斯拉老板马斯克怒称“我们刚刚从所有系统中删除了CrowdStrike!”试想一下,如果不是配置错误而是被入侵,原本是负责防护的安全软件不就摇身一变成了木马了吗?还是微软签了杀毒软件专属签名的内核态木马,难怪不少人笑称CrowdStrike是个草台班子,中文译名“群众罢工”也一语成谶,让众多IT打工人成功“休假”。
有意思的是,CrowdStrike并不止在Windows系统上挖了这个坑,Linux版本也有一模一样的bug,只是Linux的bug只会让内核线程或者用户线程崩溃而不会让总系统崩溃,所以影响相对没这么大。
更有意思的是,CrowdStrike的首席执行官乔治·库尔茨在2010年任职迈克菲首席技术官期间,向企业客户发布了一次病毒定义更新,导致自动更新的Windows XP系统电脑直接陷入无限重启问题,有数以万计的电脑在持续数小时的故障中受到影响。
而在此事件一年后库尔茨离开了迈克菲,创办今天的主角CrowdStrike。
本次蓝屏事件最麻烦的地方在于,有相当一部分设备是无法启动的,这就需要现场人工解决,对于大规模的公司而言,如果是大面积的软件瘫痪,IT人力成本非常高的,尤其考虑到此次事件主要发生在欧美国家,让IT人员逐个修复的工作量是非常恐怖的。你问为什么不能远程修复,电脑都无法启动了还怎么联网呢?不能联网谈何远程?若设备在偏远地区,那么维护成本就更加很难来想象了。
不过,修复的方法实际上并不难,只需启动时切换到安全模式,把CrowdStrike卸载或者打补丁就能搞定,国产网络安全公司安天在7月19日晚就发布了临时处置小工具CrowdStrike_Crash_Fix,可在安全模式下解决此问题。
值得注意的是,根据网友测试,此前CrowdStrike官方给出的“删除C-000029*.sys文件”解决方案也并不一定管用,因为正常进入系统后CrowdStrike还是会自动更新,这个.sys文件在自动更新后又会恢复。
当然,也有人吐槽,明明在蓝屏报告里Windows其实已经知道是哪个.sys驱动文件出了问题却不敢直接禁用,甚至都不会主动进入安全模式,这的确是一个可以探讨的未来方向。
除此之外,对企业用户而言还有一个更棘手的问题:很多企业Windows笔记本电脑都会默认打开bitlocker,而企业的bitlocker密钥普遍采用集中式管理,而如果存放bitlocker密钥的电脑也蓝屏了就会陷入死循环,相当于门被锁了,但钥匙在屋子里……
除非最终用户有备份自己电脑的bitlocker恢复密钥(这对公司用户来说可能性极低),否则bitlocker和CrowdStrike的终极组合甚至有可能导致整台电脑彻底变砖。事实上这个情况已经在欧美企业内部发生了,目前就有在德国企业工作的网友表示全公司Windows笔记本集体变砖,管理层全军覆没,只能使用手机办公,而一线员工因为主要使用macOS和ubuntu而幸免于难……
企业用户默认开启BitLocker且集中管理密钥,蓝屏可能会引起电脑无法恢复
而且,对于故障造成的经济损失程度以及谁将承担这些损失,在一段时间内还不得而知。据悉,大多数软件供应商对其程序造成的损害并不承担法律责任,因为这些程序是授权而非出售的。但他们通常会在服务协议里涉及补救、给予折扣或其他补偿的条款,不过具体的补偿方式和数字现在还无法估算。
但可以预见的是,虽然出于便利考虑,CrowdStrike的老客户或许不会主动修改订购计划,但本次事件会使该公司难以吸引新客户。
这次全球性安全事件因为发生在微软的Windows操作系统上,所以第一时间大家都认为是微软的问题,但事实上微软和CrowdStrike之间的关系很复杂,在安全防护领域甚至还是竞争对象,毕竟微软旗下的Defender也属于端点检测和响应软件。
而就在2022年,在美国一家零售商资产剥离项目对比测试中,CrowdStrike还趁机挖苦了一番微软,不仅自称“安全有效性、运营效率、总成本、易用性方面要超出微软Defender”,甚至认为“微软所带来的漏洞已成为攻击者的首选攻击面。”但从这次全球蓝屏事件暴露出的问题来看,CrowdStrike显然才是那个该被嘲讽的对象。
端点安全市场,早在2022年就已经是微软和CrowdStrike稳坐前二
事实上微软也是此次安全事故的受害者之一,因为微软云服务上运行了大量的基于Windows系统的应用程序实例,其中部分实例安装了CrowdStrike的软件,所以连带着这些虚拟机也遭遇崩溃故障。
根据目前的估算,CrowdStrike更新事故影响了850万台 Windows 设备,虽然该数字不到所有Windows设备总量的1%,但因为主要影响企业用户,所以对经济和社会运转还是带来了巨大影响。
事实上自从Windows诞生以来,最主要的蓝屏来源就是不可靠的第三方驱动程序,Windows系统至今做了不少努力来让很多驱动转移至用户态运行,比如当我们遇到显卡驱动崩溃时就只会黑屏几秒,等待驱动重启后就可以恢复工作。
但考虑到病毒都是在内核态运行,针对的是最高权限的攻防战,所以防护软件也只能在内核态运行,一旦有未处理异常就会波及总系统,所以正确的态度应该是过更加全面的测试等来保障安全,而不是因噎废食。而且我认为在本次事件后,除数据中心和边缘云外,独立工作负载使用容器技术的进程会大幅提速,毕竟它是实实在在地能够更好的降低因更新导致的系统故障。
本次微软蓝屏事件在全球影响巨大,波及不少国家地区,同时涉及学校、机构、公司以及个人用户。
虽然在这次微软蓝屏事件当中,中国有部分企业用户以及个人用户也受一定的影响,但一些重要基础设施和重要场所却没有受到丝毫影响。
微软蓝屏这么严重的影响还是第一次听说,公司现在都要求控制补丁升级,并且也不会统一升级。 一家国内航司的运控人士和记者说,“此外,国有航司在运行过程需要用的一些系统,大部分已实现国产替代了,而且我们公司的一些关键系统都是双系统同时跑的,比如飞行计划,国产自研和国外的系统并行使用。”
除双系统,当前国有航司使用的安全产品以国产为主,比如杀毒软件360(企业版称为天擎),目前还没碰到过类似的蓝屏事件,倒是使用微软的补丁升级有时会碰到蓝屏现象。航空公司之外,我国其他高铁、银行等公共服务同样没有受到此次微软蓝屏事件冲击。一位来自上海顶级三甲医院的信息技术负责人透露,CrowdStrike主要被外资企业采用,对国内医疗系统影响较小。
绝大多数中国企业和个人能在此次微软全球蓝屏事件中“幸免于难”,同我国这些年国产信创建设息息相关。2022年9月底,国资委发布79号文,全面指导并要求国央企落实信息化系统的信创国产化改造,要求相关企业全面落实信创国产化。2024年5月,新一轮国测结果为,服务器操作系统产品递增,华为云、阿里云、腾讯云等互联网大厂及麒麟信安、凝思等企业入局。桌面操作系统的内核版本也进行了全面升级,最重要的包含麒麟、统信、方德三种桌面操作系统。
值得一提的是即便是采购国产操作系统,我国国产操作系统用户市场也保持双品牌策略趋势,如金融行业中,广西农信在已装备麒麟操作系统的基础上增购统信软件的操作系统;上海银行、浦发银行在二期采购中将统信软件和麒麟软件两个品牌的操作系统均列为采购项目。电力行业中,南方电网在选购凝思和湖南麒麟产品的基础上又邀请了统信软件和麒麟软件的加入,而双品牌甚至多品牌的采购,说明终端用户对于供应商服务、能力及供应链安全等更为看重,也确保了我国各行业能从容应对微软全球蓝屏这样的危机事件。
一次软件更新即引发全球宕机,事件背后不仅暴露了对外依赖的风险,也表明了国产关键技术自主可控的必要性和紧迫性。
微软蓝屏事件致全球多个行业受影响,使得IT产业国产替代重要性凸显。而在此之前,美国一再加强贸易限制,国产替代势在必行。2024年7月17日消息,美国正在考虑采取更严格的措施,对日本和荷兰等国的公司施加压力,限制其与中国的芯片贸易。此前,美国已对半导体产业等前沿科技领域频繁出台贸易限制措施,不断收紧对华技术、产品出口管制。
除半导体以外,身处工业软件领域的中国工业软件企业天圣华(PLM/MOM)、安世亚太(CAE)也被美国商务部列入实体清单。这是中国工业软件厂商第一次进入实体清单,在这样的外界环境下,我国国产软硬件自主可控进程不得已提速。
技术上,以华为鸿蒙为代表的国产操作系统已取得初步成果,国产操作系统代表厂商麒麟软件、统信软件等,也有望加快技术迭代速度。政策端,国家出台了一系列支持国产操作系统发展的政策措施。例如,2024年3月11日,中央国家机关政府采购中心发布《关于更新中央国家机关台式计算机、便携式计算机批量集中采购配置标准的通知》,明确要求,应当将CPU、操作系统符合安全可靠测评要求纳入采购需求。
需要注意的是国产操作系统均采用开源技术路线,底层开源代码受制于开源协议的限制,在复杂的国际形势下,开源社区闭源的风险始终存在。受俄乌战争影响,微软宣布退出俄罗斯市场,SUSE、Rcdlat以及Ubunu的开发方Canonical也相继宣布对俄停服。
微软Windows7、CentOs停服,CentOS7对国内操作系统市场产生了巨大的冲击,同时也为国产厂商带来了发展机遇。目前,开源社区中,龙蜥社区、欧拉社区等中国开源社区正在构建以自主技术为核心的产业生态,为国产操作系统的发展提供助力。
国产操作系统的崛起历程可以追溯到20世纪80年代,当时中国开始自主研发计算机技术,并推出了自己的操作系统——中华操作系统(CHOS)。然而,真正意义上的国产操作系统发展始于1992年“八五”攻关计划中立项的“计算机操作系统开发”专题。
经过数十年时间的发展和沉淀,我国操作系统目前已具备突破性发展的产业机遇。一方面,近年来我国基于“操作系统+基础硬件+生态应用”的产业生态链已初步成型,支持操作系统发展的基础硬件产业行业集中率不断的提高,呈现较强的规模效应。
另一方面,万物互联模式对操作系统提出新需求,新业务形态促使传统操作系统进行转型,以云大物移为主的新技术及新业态促使传统操作系统向着多端互联、低功耗、模块化、高安全性等方向进化。此外,云计算、人工智能等新技术的涌现也为我国操作系统弯道超车提供了条件。
目前,国内操作系统市场呈现由统信软件和麒麟软件两方主导的双头部格局。从行业应用来看,麒麟操作系统大范围的应用于政务、金融、通信、能源等多个领域,并且在天问一号、嫦娥五号等重大科研项目中也有使用。此外,麒麟系统还非常适合于物联网及工业互联网场景,包括边缘计算、人工智能、智能办公等。
相比之下,统信UOS则更侧重于桌面与服务器应用。它能够较好地支持QQ、微信、钉钉等常用社交软件以及网易云音乐等影音服务,同时全面适配金山WPS、搜狗输入法等常用软件,满足绝大多数工作场景需求。
差异化的定位需求决定麒麟操作系统强调高性能、高安全性、高稳定性,并且具备强大的虚拟化和云计算能力,而统信UOS则注重易用性和生产力提升,内置语音助手并支持自然语言交互操作。
统信软件和麒麟软件之外,鸿蒙无疑是我国操作系统领域快速崛起的也在手机、汽车、物联网智能家居等领域快速推进国产操作系统及软件生态的自主可控进程。在 2024年3月15 日举行的 2024年华为云&华为终端云创新峰会上,华为宣布鸿蒙生态设备数量已达 8 亿,这中间还包括手机、PC、平板、智慧屏、车机等高频使用终端设备。
同时,华为鸿蒙在PC端也展开积极尝试,不仅已完成了针对 IntelPc 端的开源鸿蒙适配工作,而且其技术内核支持 PC 端发展,为鸿蒙打开发展新空间的同时,也极大地推动了我国信创产业的落地。
生态,是操作系统公司发展的关键。是否拥有大量的软件及硬件生态,能否给用户所带来更丰富、更优质的适配体验,决定了操作系统的成败。
操作系统的国产替代化并非一朝一夕能够实现,尤其是民用操作系统领域,用户已形成对 Windows 操作界面的惯性依赖,再加上围绕 Windows 所建立的一系列生态软件体系,普通用户基本上没有动力去放弃 Windows 尝试其他产品。
目前我国应用软件主要使用在在非通用行业,大部分行业仍处于未普及阶段,围绕操作系统建立的应用软件生态体系仍未完善,用户使用感不佳等问题也是客观存在的,需要生态圈共同的努力才能推动国产操作系统的落地。
而从基础的IT硬件构建、数据库搭建到云部署,逐渐完备的国产信创早已对类似危机演练了无数次,“幸免于难”的中国企业本就在情理之中。
在一场波及全球850万台电脑的信息技术(IT)故障、且有很大的可能性是有史以来最严重的网络安全事件中,中国却几乎毫发无伤,表面上看这是我国几乎不使用海外公司安全软件,也不像其他国家如此依赖微软的云计算服务的“福报”,但这并非一日之功。
多年来,前述多家国内信创企业能够突出重围,不仅活下来还活得很好的背后,实际上是一场带有国家安全战略使命的远征。
当我们想要站在当下梳理过往杂乱的草蛇灰线年绝对是一个难以忽视的节点,甚至可以视为我国信创产业走向国产替代的转折点。那一年,“棱镜门”事件不断发酵,政坛被搅动的同时,全球对网络信息安全的关注度也达到峰值,我国自那时起,便开始在党政系统内强调系统的安全可控,逐步去除“IOE(IBM、Oracle和EMC)”。
“去IOE”其实最早是由阿里巴巴内部提出的,目的是为了实现技术架构的调整,以开放式的内部数据管理系统来取代IBM小型机、Oracle(甲骨文)数据库与EMC(易安信)存储设备的封闭式数据管理的传统组合。熟悉互联网发展历史的业内人士解释,阿里彼时是正在崛起的互联网企业,大的技术趋势又是以开源软件和“云”为基础的开放式处理方式,“新王需要抓住新技术来改变市场格局”。
在党政领域,“去IOE”逐渐演变成了用国产设备替代IBM大型服务器、Oracle数据库和EMC存储。同样的,海外IT品牌比如惠普的服务器、思科的网络、HDS的存储和微软的操作系统以及办公软件都在可能被替代的行列中,而华为、联想、浪潮、曙光在中国市场的份额却不断上涨。
很快,技术更迭伴随着政治忧虑,从中央层面起,自上而下推动的“党政机关电子公文系统”升级试点就一直延伸到了县市级,以个人电脑和办公系统软件为主的内部网络系统逐步走向安全可控。
原本还只是在部分行业推行的国产替代进程,在全球地缘政治的变化中被逼着快速成长。先是中美科技脱钩的风险在2018年陡然加剧,中兴、华为等国内厂商被美国禁售;而后俄乌冲突爆发,甲骨文、微软、IBM、SAP等欧美IT软硬件厂商出于政治考量纷纷停止为俄罗斯客户提供服务。这也再一次警醒国人:信息技术的无国界很有很大的可能是潜在的威胁。
近几年,美国对我国科技领域的阻击可谓是越来越细致,除了把一批批企业送上限制出口的“实体清单”,还通过限制GPU、先进计算领域的人才流入流出阻碍芯片制造业走向先进制程。
不过福祸相依,美国的封锁越细越严格,中国厂商的机会也就越多。在政策的扶持下,几乎每一波美国政策的出现,都会催生出新的国产替代需求,从底层芯片、系统到上层软件无一例外,这次“蓝屏事件”仅仅是一次本土IT产业链的意外演练,足以证明国产替代铺进垂直行业核心领域的重要性。