分区分服类手游如何应对OB瞬间流量
前言
少三2成功 OB 已经一年多了,19年12月份,我们还在为项目 OB 艰苦奋斗呢。转眼间就过去一年多了,虽然在公司内部也做过一些 OB 期的技术问题总结,但都比较泛。今天有时间,想着还是从更细的角度深入总结一下,OB 时面临的技术难点在哪里?好好思考一下,我们下一个项目 OB 的时候,是否可以更稳更安全地完成 OB 任务。虽然我们经历过少三1的 OB,但在少三2的 OB 过程中还是有些不适应,也曾有部分技术细节没做好,导致部分的流量没抓住。我们主策同学曾经戏言,后端技术 OB 期给项目损失了200万广告费。我认为问题确实存在,所幸我们及时补救回来了,没有像某些游戏一样,上线即崩。为什么已经有了一些 OB 经验,还是不能很好地应对呢?主要原因是时代在变,技术也在变,历史经验只能作为参考,并不能完全照搬照套。要做好足够的预案,在 OB 时也要迅速反应,及时对当前的状况做出正确的应对。
何为 OB
OB 意为 Opened Beta,就是公开测试版本。在软件行业中,这只是测试版本中一个比较重要的节点而已,后面还会有 Gamma、RC、RTM 等等版本,之后才会正式发布 Release 版本。但在游戏行业中,因为 OB 版本开始需要保留玩家数据,不能进行删档操作了,因此 OB 版本就非常重要了。从运营侧来说,OB 版本存在媒体曝光的机会,曝光即意味着免费导量,OB 版本就显得尤为重要了,OB 版本能够做到的高度基本决定了游戏的命运,是功成名就还是功败垂成就在此关键一役。
何为分区分服类游戏
分区是从运营层面的区分方式,主要是游戏生态的考量,同区玩家存在直接的竞争关系,能够在游戏内互通数据,例如同台竞技、互为好友或者组成联盟之类的玩法。现在手游基本会把 AppStore 独立分区,因为该渠道的玩家付费生态较好。腾讯也是一个特殊的渠道,应用宝基本也会独立分区。然后就是安卓混服会放在一个混合分区,但目前也有很多其他特殊渠道会独立分区,具体要看运营如何分配渠道资源了。
分服是相对于通服的做法,大部分游戏都是分服的设计方案,因为这样服务器的承载就相对可控,分服之后单服的压力总归有限,技术难度相对较小。而通服的做法在技术上就显得高大尚一些了,必须采用分布式架构,无论是游戏内部的通信,还是玩家数据的存储,都会面临很大的技术挑战。
分区分服就是在分区的基础上,区内再按照生态以不同节奏开新服,通过区内跨服的玩法,将这些玩家的生态进行串联,能够提供社区类玩法,提高区内玩家的活跃度。分区分服类游戏的开服节奏相对较快,单服的玩家数有限,一旦在开服竞技中处于弱势的玩家就会选择换新服重头开始,也就形成了滚服玩家较多,老服玩家流失率高的特色。
OB 时的技术挑战
OB 就意味着曝光,有媒体也有渠道,游戏的知名度越高,OB 带来的流量就越高。以少三2 AppStore 渠道为例,首日就开出了22台服务器,每台服务器平均注册1万人,首日注册玩家数约为22万人。注册量大倒不是最大的挑战,最大的挑战却是在 OB 开启的那一刻的瞬间流量。这个流量是不可控的,峰值多少也无法预估,即使有历史经验也很难做参考。就拿少三2为例,仅 AppStore 这个渠道的量就已经超出了我们的想象,因为我们还拿着少三1 OB 的经验做预案参考,显然已经过时了。
按照之前的经验,我们为了缓解压力,会把 S1 服提前2分钟对外,我们对外公布 10:00 开服,S1 服实际是 9:58 开服的。从创角数据上看,开服前2分钟的创角量就直接超过了8000+,而开服后3分钟内的每分钟创角量也都在 8000+,明显 S1 服已经被爆服了。这个爆服并不是服务器真被撑挂了,而是因为服务器设计了防爆机制,单服同时在线超过阈值(6000)时,后续玩家登录的玩家就无法进入游戏了,这也难怪主策同学会说后端技术应该承担200万的经济损失。从 S1 服的同时在线数据来看,9:59 至 10:04 的这5分钟内,同时在线瞬间从4371攀升到 6000,一直持续到 10:29 都持续保持在6000这个峰值。从开服前5分钟内的创角数据看,9:58 至 9:59 这两分钟内,创角总量就已经接近1万,再加上 10:00 瞬间涌入的玩家,S1 服被爆服的事实是客观存在的。 从 10:00 开始 S2 ~ S8 等7台服务器才开始接活,之后半小时内涌入 S1 而无法正常登入的玩家就已经损失了,当然也有可能会因为进不了 S1 而选择去其他服务器试试,但更多的小白玩家会因此而流失掉了。
如何应对 OB
既然 OB 时导入的量无法控制,是否就只能承受这个损失呢?当然不是,以我两次 OB 的经验来看,只要做好足够的预案,完全吃下这些量是绝对可以的。少三2因为 AppStore 和安卓混服是分两期 OB 的,我们在 AppStore 吃到的亏,在安卓混服 OB 时就很好地避免了。结合我们已经做到的,以及我们还没做到的,我觉得都有必要总结一下。
1. 系统稳定可靠
打铁还需自身硬,不管导入的量有多少,自身系统必须稳定可靠,否则就是竹篮打水一场空。如果你是系统架构设计者,是一个没有被验证过的架构,那就把这个架构简单化,不要贪图高大上的复杂架构,因为你可能 hold 不住。如果是一个已经被验证过的架构,那也不能掉以轻心,你得对这个架构的优缺点做到心中有数,在业务设计时,必须扬长避短,不要一味地跟着策划天马行空。如果有些策划想法因为技术架构的性能瓶颈做不到,并不丢人,如果强逞去做,最后影响到整个系统的性能就得不偿失了。所以,在能够满足业务需求的情况下,确保能够提供一个高性能的服务,是一个技术人最基本的追求。
2. 提高承载数据
在确保系统拥有足够高性能的前提下,努力提高系统的承载能力是一件极有挑战性的任务,这就是游戏系统的高并发要求。游戏系统的高并发和网站系统不是一个概念,游戏系统的高并发通常是指系统的同时在线人数,游戏系统架构越复杂,可承载的同时在线人数越高,但面临的技术挑战也越高。除了最高同时在线人数之外,还有最高创角人数,这个和游戏框架的数据库设计有关,数据库的选型与部署方案决定了单服的最高创角人数上限。
当系统架构已经完成,开始业务铺量开发了,这个时候需要按照版本节点,对版本中的业务进行压力测试。从这些业务的系统运行情况与数据承载情况,发现系统架构的瓶颈所在,然后对瓶颈问题进行分析与改进。这个时候可能会面临系统架构的技术性调整,要做好改动的可行性评估,这种改动手术就真正考验到架构设计者了。然后,你得在一个循环中不断优化,通过压测发现问题,找出技术瓶颈,分析原因并解决它。最终将系统的承载数据提高到一个可接受的范围,这个数据必须得到运营方的认可,然后在 OB 期导量的时候大家都要心中有数。
3. 让系统高可用
高可用是所有软件系统通用的对于服务时间的衡量标准,理论上需要的是 100% 提供服务的系统,但实际上很难做到,很多大公司对系统的高可用标准是 99.99%。游戏系统和传统软件系统对高可用的标准有一些差异,主要体现在,游戏系统允许短时间的停服更新维护,而传统软件系统是要求7*24小时的永不停服的服务。并不是游戏系统不想要永不停服的服务,而是系统本身的复杂性,以及技术的实现难度,很难保障在不停服进行系统更新的同时,还能提供不间断的服务。当然,有一些技术手段是可以实现不停服更新,但也存在一定局限性,比如只能更新部分代码或配置文件。
抛开停服更新这个唯一允许停服的时间之外,游戏系统对高可用标准和传统软件系统是一致的,任何因其他原因造成的服务中断,都是 S 级事故。因此,提供可靠服务也是游戏后端系统的一个基本要求,游戏系统不能因为业务开发的设计不严谨,造成服务的中断。这对于 C++ 技术栈的游戏系统来说,确实是一个挑战,主程必须时刻思考一个问题,如何提高后端团队所有人的代码设计能力,确保他们写的代码不会造成服务器宕机。而对 Golang 技术栈的游戏系统来说,这个挑战明显没有那么难了,我们只要确保几个点就可以让程序不会那么轻易宕机。
除了程序本身不轻易宕机之外,我们还要确保系统中没有单点服务,也就是在出现服务不可用的情况,可以由另外一个相同的服务器瞬间接管服务。完全无单点服务很难,这要看服务本身是做什么的,如果是无状态的服务,无单点很好解决,同时启动多个服务,做一个负载均衡就可以解决。但游戏服务很多时候都是有状态的,有状态的服务宕机之后,如何恢复这些状态是一个技术挑战点。如果确实无法避免这些单点服务,那就想想怎么将这些单点服务的影响控制在很小的范围,从整体上看服务依然可用。比如,少三2的游戏服和跨服都是单点服务,游戏服宕机只会影响单个区服,不会影响其他区服,而跨服宕机只会影响跨服玩法,单服内的玩法不受影响。
自动拉起服务,是一个双刃剑。因为游戏服务器是一个有状态的服务,如果宕机时的状态不影响游戏的结果,自动拉起服务可以及时地恢复服务,让玩家能够及时返回游戏场景重新开始游戏,运营层面应该是可以接受的。但如果宕机的状态会影响到游戏的结果,而且必须人工介入处理才能正常恢复状态,那就不能使用自动拉起服务。自动拉起服务还必须配合成熟的报警系统,在自动拉起服务后,运维或研发人员能够及时知晓并上线排查问题,必要时紧急修复问题,避免问题持续影响玩家体验。
4. 避免被第三方掐死
游戏框架中,难免会用到第三方的服务器,比如 sdk 验证、日志、防沉迷系统等等。如果第三方提供的服务不是足够健壮,而代码中不做任何容错的话,你的系统极有可能就会被这些服务掐死。常规的第三方服务,因为具有一定的通用性,所以这些服务基本都是以http协议通信。就拿防沉迷系统来说,做游戏的都知道必须要做,多数情况会是公司级或平台级的部署方案,游戏侧只需要接入就可以了。正常来说,接入也非常简单,玩家登录时先请求平台的验证接口,检查玩家属性(是否未成年人)及其累计游戏时长,如果验证通过则允许登录,之后玩家在线期间则需要定时重新验证及上报游戏时间。如果平台的验证请求都是同步发送,那游戏就会受到平台性能的制约,比如平台因各种原因导致验证接口响应慢了,游戏内的登录体验就会明显变卡,甚至可能造成无法登录的情况。
与第三方服务通信最合理的方法是异步通信,并且在第三方服务无响应或者响应超时的情况下,需要能够跳过这些服务,通过游戏内的本地缓存或兼容算法进行简单处理,等到服务恢复后再重新请求。当然,这要看具体的业务逻辑,比如防沉迷系统,游戏侧完全可以缓存玩家的属性(是否未成年人)和游戏时长,在第三方服务异常的情况下,直接用本地缓存信息进行验证也是可以的,等到服务恢复后再重新进行验证。如果游戏本身已经做的非常好了,但因为第三方猪队友直接被掐死了,那就非常可惜了。
5. 设计防撞墙
任何系统都有一系列最大承载值,系统承载的数值高于阈值,可能会造成性能瓶颈,影响系统服务。当然,这个数值会受到运行环境、系统配置以及设计能力等等的影响。但我们必须正视这些阈值,在游戏 OB 期间关注这些数据,一旦系统运行时这些数值超标,必然会影响游戏体验,甚至会造成系统崩溃。就游戏系统而言,底层影响性能的数值很多,比如:硬件性能(网络带宽、网络IO、磁盘IO、CPU及内存大小等等)、软件性能(最大TCP连接数、网络协议包大小限制、收发包队列长度、存储文件数量及大小、定时器数量、并发线程数等等)。但最终会体现在业务上的性能数值包括:注册人数上限、同时在线人数上限、交互玩法的上限等等,而在游戏 OB 时需要重点考虑的数据就是注册人数和同时在线人数。
一款游戏想要顺利 OB,架构设计者必须对这个数据保持清醒的认知,谨小慎微和盲目自信都是要不得的。而且在游戏 OB 时,仅仅依靠人工关注,是不现实的,你来不及做任何事情,只能眼睁睁的看着服务器被撑爆。按照少三2的级别,OB 开始3分钟内的涌入量绝对在2.5万以上,每分钟的涌入量也都在8000以上,任何分区分服类的游戏都会面临被爆服的可能,如果想做一款比少三2还爆量的游戏,应对难度可想而知。少三2之所以服务器没有被撑爆,是因为我们做了防撞墙,当单服注册人数达到2万或者同时在线人数达到6000时,登录请求会被拒绝,返回客户端错误码,客户端会提示服务器已满,请更换服务器登录。为了避免服务器被挤爆,防撞墙的设计是必须要做的,根据自己系统的设计阈值,对超出阈值的流量做拒绝服务,并做好友好提示。从服务器保护的角度,这个应对是合理的,但从运营的角度,这个应对还远远不够,因为很多小白玩家会因为无法登录游戏直接选择放弃而离开。
6. 设计排队系统
那如何让这些因为超过系统负载而被拒绝的流量不会流失掉呢?在端游时代最常见的排队系统,就是一个很好的方案,让那些小白玩家知道当前系统负载已经满荷,并且告知在他之前还有多少玩家在等待进入,大概还需要等待多久才能够进入游戏,否则流失是必然的。分区分服类的手游也可以做这个,越热门的游戏,OB 时爆量的压力越大,被爆服的可能性越高。另外因为手游 OB 期间,最高同时在线能够达到阈值的时间相对较短,所以手游的排队系统可以设计得简单一些,能够对小白玩家友好一些即可。
7. 智能引流系统
面对铁粉,排队系统确实有效,但对于想快速体验游戏的小白来说,那是不够的。他们只想尽快进入游戏,如果游戏体验不是很好,他们可能很快就离开了。因此我们需要智能引流系统,在玩家等待排队时,可以推荐另外一组空闲的服务器,供玩家自由切换。对于分区分服的游戏,在 OB 时,一定会同时开出很多组服务器,供玩家自由选择。但多数情况下,OB 时玩家瞬间涌入,基本都是选择默认服务器进入,如果这个默认服务器不能自动更换,那这台默认服务器必然会被撑爆。如果有一套智能引流系统,在玩家第一次进入游戏时,被防撞墙踢出时,或者在排队系统中等待时,都能被这套智能引流系统引导到一组空闲的服务器,那将会大大降低小白玩家的流失率。
这其实就是一套智能的推荐服务器系统,在登录界面以及排队系统中,能够及时给玩家提供一组空闲的服务器。这就要求这套系统能够实时掌握所有开放服务器的玩家相关数据,包括同时在线人数以及创角人数,能够在这些数据中智能化地找出一组空闲的服务器。