游戏服务器架构

案例1:寝室斗地主

  • 登录
  • 对局 游戏逻辑:发牌、规则判定、结算
  • 数据记录
  • 单机运行
  • 简易维护

案例2:社区斗地主

  • 业务实现:房间列表、自动匹配、大量级存储、服务安全、公告系统
  • 运行维护:多机、带宽、下载、更新

什么是服务器架构

  • 对服务器软件和硬件以及运行的一体化规划
  • 架构结构:分层分块
  • 架构技术选择:编程语言、通信方式、存储技术
  • 运行质量:运行环境、部署工具方法、更新方案
4933701-128234e6619302e1.png
服务器架构

案例:MMORPG 轩辕** 服务器架构 分区多世界

MMORPG:大型 多人 在线 角色扮演

分区多世界:运营视角

  • 世界与世界是隔离的
  • 世界之间的互通方式:跨服、转服、合服
4933701-254edee6eabb463a.png
分区多世界:运营视角

分区多世界:运维视角

  • SET部署:每开一组服就增加一组机器、部署一套进程


    4933701-ca6c14b9c21f5e90.png
    分区多世界:运维视角

双通服:世界上最遥远的距离,是从电信到网通的距离。

分区多世界:客户端视角

  • TCLS组件:显示所有服务器列表
4933701-f5dae33402e77aa1.png
分区多世界:客户端视角

分区多世界:服务器视角

  • 一组服:一套进程
4933701-cf5feca88c443859.png
分区多世界:服务器视角

轩辕服务器为什么要这么多进程和机器 - 多维度切分

初始设计

一个进程包揽所有游戏服务器功能

4933701-0c1b00f77c0831c9.png
一个进程包揽所有游戏服务器功能

问题:开第2个服应该怎么做呢?

按世界分离

  • 分区多世界原型v1
    一个大区包含多台物理机、一台物理机仅运营一个游戏世界、一个游戏世界对应一个游戏进程
  • 问题:跨世界共享的功能会变得重复
    游戏账号登录、客户端版本升级、游戏大区列表、游戏账号信息

公共服分离

  • 跨世界共享功能的分离部署
  • 问题:公共服的单点故障
    针对单点故障,最常用的方式是主备从模式
4933701-11c6b14ff3c0f555.png
跨世界共享功能的分离部署

公共服热备

  • 主备从模式
  • 问题:一台物理机一个进程?
4933701-99b0bba34314a98e.png
主备从模式

按功能分离

  • 按“接入-逻辑-存储”分离
    分离业务逻辑(不稳定的)与基础功能(稳定的)
  • 问题:逻辑处理和持久化数据在一个物理机上
    DB的文件IO会拖慢整体系统(百万级玩家,几百个G的数据)、进程运行中每天输出大量日志(几个G数据)、物理机故障时DB可能会丢失


    4933701-84f0d20d9cb16ddc.png
    接入-逻辑-存储

按重要性分离

百万注册 = 10W活跃 = 1W在线,缓存应重点放在活跃身上。

4933701-6adbd3564a779812.png
分离逻辑计算与持久化存储的部署

设计演进:分区多世界原型v2

  • cluster云级服务:整个游戏一组
  • world级服务:每个游戏世界一组
  • 各组服包含“接入-逻辑-存储(DB/DR/LOG分离)”
4933701-9ee4350bc1a46655.png
分区多世界原型v2

继续分离公共服

分离逻辑部分弱相关的功能,公共服分离服务器列表、版本升级、账号信息等功能。

4933701-3875ed7287b72d05.png
分离逻辑部分弱相关的功能

切分逻辑进程

当前的现状是所有鸡蛋都放在一个篮子里,所有玩家都在一个进程上,好处是一个特性可以方便地操作到所有玩家上,风险是一个特性的bug可能会影响到所有玩家。

4933701-7ab312d981ae8195.png
切分逻辑进程

所有特性都在一个进程所带来的风险是:特性的不断的引入会使该进程稳定性和服务质量降低。

4933701-f6aeb5e6c2d287f2.png
方案9 将scene上一些特性功能独立出来

设计演进:分区多世界原型v3

4933701-d186bb96437e0525.png
cluster级、world级服务按功能不断切分

如何做切分,参考原则如下:

  • 为可扩展性:一组服一套进程
  • 为可运维性:一组服一套机器
  • 为可靠性:弱相关的功能可分离
  • 提高更新便利性:将频繁更新的部分分离
  • 按服务重要性切分:如支付系统独立
  • 按服务特点切分:接入、存储、逻辑分离
  • 切分稳定的基础功能和不稳定的业务逻辑

服务器为长线运营的准备

基本原则:可用、可控、可扩展性

接入与负载

  • 多tconnd:分离下行广播包的压力
  • 多scene:可扩展性,提高单服承载人数
4933701-72ee7170e8c765ce.png
接入与负载

可用性

  • resume机制
  • minidump
    避免因为coredump导致resume时间过长,支持输出出错时基本上下文(调用栈、寄存器)
4933701-5931676424559dc5.png
resume机制

在线控制

  • reload机制:资源、配置文件热加载
  • GM系统


    4933701-12e37c2966c9f1a3.png
    GM系统

过载保护

  • 请求频率控制:按功能模块控制如移动、技能...

  • DB频率控制:按业务模块配额,区分优先级(存盘优先)

  • 边界情况检测:某类内存分配占用量超过阈值,某类请求/timer执行时间过长

    DB设计

  • 表格设计:按QQ号分表,简单列+统一blob格式(meta)

  • 数据升级:旁路进程,自动分批升级

4933701-70925041cb56a89e.png
DB设计

服务器中服务介绍

版本升级tcus

  • 支持升级策略:强制、推荐、后台、预下载、自定义
  • 支持灰度更新
4933701-cfa4db16f976fb9f.png
版本升级

目录服务tdir

显示服务器列表,繁忙程度(参照在线人数)。

4933701-8c1d61235af0fc2e.png
目录服务

游戏过程world/scene

4933701-722027267503adc6.png
游戏过程

运营支持 GM平台/idip

4933701-58702d84fc47aae9.png
运营支持