Dubbo 3 前瞻之应用级服务发现

Dubbo 与开源中国共同策划   【Dubbo 云原生之路】系列文章,和你们一块儿回顾 Apache Dubbo 社区的发展。这是系列第二篇。系列文章主要涵盖 Dubbo 技术解读、社区运营、应用案例解析三大部分。在这里,咱们也向全部的    Dubbo 用户和开发者发出投稿邀请,若是你正在使用 Dubbo,或是正在为 Dubbo 贡献力量,欢迎和咱们分享你的开发使用经验,优质文章也会收录进【Dubbo 云原生之路】系列。
 
投稿地址:xuyijun@oschina.cn

系列开篇:Dubbo 云原生之路html

本文做者:刘军
花名陆龟,Github 帐号 Chickenlj,Apache Dubbo PMC,项目核心开发,见证了 Dubbo 重启开源,到从 Apache 基金会毕业的整个过程。现任职阿里云云原生应用平台团队,参与服务框架、微服务相关工做,目前主要在推进 Dubbo 3.0 - Dubbo 云原生。

1、服务发现(Service Discovery) 概述

从 Internet 刚开始兴起,如何动态感知后端服务的地址变化就是一个必需要面对的问题,为此人们定义了 DNS 协议,基于此协议,调用方只须要记住由固定字符串组成的域名,就能轻松完成对后端服务的访问,而不用担忧流量最终会访问到哪些机器 IP,由于有代理组件会基于 DNS 地址解析后的地址列表,将流量透明的、均匀的分发到不一样的后端机器上。apache

在使用微服务构建复杂的分布式系统时,如何感知 backend 服务实例的动态上下线,也是微服务框架最须要关心并解决的问题之一。业界将这个问题称之为 -  微服务的地址发现(Service Discovery),业界比较有表明性的微服务框架如 SpringCloud、Microservices、Dubbo 等都抽象了强大的动态地址发现能力,而且为了知足微服务业务场景的需求,绝大多数框架的地址发现都是基于本身设计的一套机制来实现,所以在能力、灵活性上都要比传统 DNS 丰富得多。如 SpringCloud 中经常使用的 Eureka, Dubbo 中经常使用的 Zookeeper、Nacos 等,这些注册中心实现不止可以传递地址(IP + Port),还包括一些微服务的 Metadata 信息,如实例序列化类型、实例方法列表、各个方法级的定制化配置等。编程

下图是微服务中 Service Discovery 的基本工做原理图,微服务体系中的实例大概可分为三种角色:服务提供者(Provider)、服务消费者(Consumer)和注册中心(Registry)。而不一样框架实现间最主要的区别就体如今注册中心数据的组织:地址如何组织、以什么粒度组织、除地址外还同步哪些数据?后端

咱们今天这篇文章就是围绕这三个角色展开,重点看下 Dubbo 中对于服务发现方案的设计,包括以前老的服务发现方案的优点和缺点,以及 Dubbo 3.0 中正在设计、开发中的全新的面向应用粒度的地址发现方案,咱们期待这个新的方案能作到:api

  • 支持几十万/上百万级集群实例的地址发现
  • 与不一样的微服务体系(如 Spring Cloud)实如今地址发现层面的互通

2、Dubbo 地址发现机制解析

咱们先以一个 DEMO 应用为例,来快速的看一下 Dubbo “接口粒度”服务发现与“应用粒度”服务发现体现出来的区别。这里咱们重点关注 Provider 实例是如何向注册中心注册的,而且,为了体现注册中心数据量变化,咱们观察的是两个 Provider 实例的场景。架构

应用 DEMO 提供的服务列表以下:app

<dubbo:service interface="org.apache.dubbo.samples.basic.api.DemoService" ref="demoService"/>

<dubbo:service interface="org.apache.dubbo.samples.basic.api.GreetingService" ref="greetingService"/>

咱们示例注册中心实现采用的是 Zookeeper ,启动 192.168.0.103 和 192.168.0.104 两个实例后,如下是两种模式下注册中心的实际数据。负载均衡

2.1 “接口粒度” 服务发现

192.168.0.103  实例注册的数据:框架

dubbo://192.168.0.103:20880/org.apache.dubbo.samples.basic.api.DemoService?anyhost=true&application=demo-provider&default=true&deprecated=false&dubbo=2.0.2&dynamic=true&generic=false&interface=org.apache.dubbo.samples.basic.api.DemoService&methods=testVoid,sayHello&pid=995&release=2.7.7&side=provider×tamp=1596988171266

dubbo://192.168.0.103:20880/org.apache.dubbo.samples.basic.api.GreetingService?anyhost=true&application=demo-provider&default=true&deprecated=false&dubbo=2.0.2&dynamic=true&generic=false&interface=org.apache.dubbo.samples.basic.api.GreetingService&methods=greeting&pid=995&release=2.7.7&side=provider×tamp=1596988170816

192.168.0.104  实例注册的数据:运维

dubbo://192.168.0.104:20880/org.apache.dubbo.samples.basic.api.DemoService?anyhost=true&application=demo-provider&default=true&deprecated=false&dubbo=2.0.2&dynamic=true&generic=false&interface=org.apache.dubbo.samples.basic.api.DemoService&methods=testVoid,sayHello&pid=995&release=2.7.7&side=provider×tamp=1596988171266

dubbo://192.168.0.104:20880/org.apache.dubbo.samples.basic.api.GreetingService?anyhost=true&application=demo-provider&default=true&deprecated=false&dubbo=2.0.2&dynamic=true&generic=false&interface=org.apache.dubbo.samples.basic.api.GreetingService&methods=greeting&pid=995&release=2.7.7&side=provider×tamp=1596988170816

2.2 “应用粒度” 服务发现

192.168.0.103 实例数据:

{

    "name": "demo-provider",

    "id": "192.168.0.103:20880",

    "address": "192.168.0.103",

    "port": 20880,

  "metadata": {

    "dubbo.endpoints": "[{\"port\":20880,\"protocol\":\"dubbo\"}]",

    "dubbo.metadata.storage-type": "local",

    "dubbo.revision": "6785535733750099598"

  },

    "time": 1583461240877

}

192.168.0.104  实例数据:

{

"name": "demo-provider",

"id": "192.168.0.104:20880",

"address": "192.168.0.104",

"port": 20880,

"metadata": {

"dubbo.endpoints": "[{"port":20880,"protocol":"dubbo"}]",

"dubbo.metadata.storage-type": "local",

"dubbo.revision": "7829635812370099387"

},

"time": 1583461240947

}

对比以上两种不一样粒度的服务发现模式,从 “接口粒度” 升级到 “应用粒度” 后咱们能够总结出最大的区别是:注册中心数据量再也不与接口数成正比,不论应用提供有多少接口,注册中心只有一条实例数据。

那么接下来咱们详细看下这个变化给 Dubbo 带来了哪些好处。

3、Dubbo 应用级服务发现的意义

咱们先说结论,应用级服务发现给 Dubbo 带来如下优点:

  • 与业界主流微服务模型对齐,好比 SpringCloud、Kubernetes Native Service 等
  • 提高性能与可伸缩性。注册中心数据的从新组织(减小),能最大幅度的减轻注册中心的存储、推送压力,进而减小 Dubbo Consumer 侧的地址计算压力;集群规模也开始变得可预测、可评估(与 RPC 接口数量无关,只与实例部署规模相关)

3.1 对齐主流微服务模型

自动、透明的实例地址发现(负载均衡)是全部微服务框架须要解决的事情,这能让后端的部署结构对上游微服务透明,上游服务只须要从收到的地址列表中选取一个,发起调用就能够了。要实现以上目标,涉及两个关键点的自动同步:

  • 实例地址,服务消费方须要知道地址以创建连接
  • RPC 方法定义,服务消费方须要知道 RPC 服务的具体定义,不论服务类型是 rest 或 rmi 等

对于 RPC 实例间借助注册中心的数据同步,REST 定义了一套很是有意思的成熟度模型,感兴趣的朋友能够参考这里:点击查看, 按照文章中的 4 级成熟度定义,Dubbo 当前基于接口粒度的模型能够对应到 L4 级别。

接下来,咱们看看 Dubbo、SpringCloud 以及 Kubernetes 分别是怎么围绕自动化的实例地址发现这个目标设计的。

a) Spring Cloud

Spring Cloud 经过注册中心只同步了应用与实例地址,消费方能够基于实例地址与服务提供方创建连接,可是消费方对于如何发起 http 调用(SpringCloud 基于 rest 通讯)一无所知,好比对方有哪些 http endpoint,须要传入哪些参数等。

RPC 服务这部分信息目前都是经过线下约定或离线的管理系统来协商的。这种架构的优缺点总结以下。

优点:部署结构清晰、地址推送量小。

缺点:地址订阅须要指定应用名, provider 应用变动(拆分)需消费端感知;RPC 调用没法全自动同步。

b) Dubbo

Dubbo 经过注册中心同时同步了实例地址和 RPC 方法,所以其能实现 RPC 过程的自动同步,面向 RPC 编程、面向 RPC 治理,对后端应用的拆分消费端无感知,其缺点则是地址推送数量变大,和 RPC 方法成正比。

c) Dubbo + Kubernetes

Dubbo 要支持 Kubernetes native service,相比以前自建注册中心的服务发现体系来讲,在工做机制上主要有两点变化:

  • 服务注册由平台接管,provider 再也不须要关心服务注册
  • consumer 端服务发现将是 Dubbo 关注的重点,经过对接平台层的 API-Server、DNS 等,Dubbo client 能够经过一个 Service Name(一般对应到 Application Name)查询到一组 Endpoints(一组运行 provider 的 pod),经过将 Endpoints 映射到 Dubbo 内部地址列表,以驱动 Dubbo 内置的负载均衡机制工做

Kubernetes Service 做为一个抽象概念,怎么映射到 Dubbo 是一个值得讨论的点:

  • Service Name - > Application Name,Dubbo 应用和 Kubernetes 服务一一对应,对于微服务运维和建设环节透明,与开发阶段解耦
apiVersion: v1

kind: Service metadata:   name: provider-app-name spec:   selector:     app: provider-app-name   ports:     - protocol: TCP       port:       targetPort: 9376
  • Service Name - > Dubbo RPC Service,Kubernetes 要维护调度的服务与应用内建 RPC 服务绑定,维护的服务数量变多
---

apiVersion: v1

kind: Service

metadata:

  name: rpc-service-1

spec:

  selector:

    app: provider-app-name

  ports: ##

...

---

apiVersion: v1

kind: Service

metadata:

  name: rpc-service-2

spec:

  selector:

    app: provider-app-name

  ports: ##

...

---

apiVersion: v1

kind: Service

metadata:

  name: rpc-service-N

spec:

  selector:

    app: provider-app-name

  ports: ##

...

结合以上几种不一样微服务框架模型的分析,咱们能够发现,Dubbo 与 SpringCloud、Kubernetes 等不一样产品在微服务的抽象定义上仍是存在很大不一样的。SpringCloud 和 Kubernetes 在微服务的模型抽象上仍是比较接近的,二者基本都只关心实例地址的同步,若是咱们去关心其余的一些服务框架产品,会发现它们绝大多数也是这么设计的,即 REST 成熟度模型中的 L3 级别。

对比起来 Dubbo 则相对是比较特殊的存在,更多的是从 RPC 服务的粒度去设计的。对应 REST 成熟度模型中的 L4 级别。

如咱们上面针对每种模型作了详细的分析,每种模型都有其优点和不足。而咱们最初决定 Dubbo 要作出改变,往其余的微服务发现模型上的对齐,是咱们最先在肯定  Dubbo 的云原生方案时,咱们发现要让 Dubbo 去支持 Kubernetes Native Service,模型对齐是一个基础条件;另外一点是来自用户侧对 Dubbo 场景化的一些工程实践的需求,得益于 Dubbo 对多注册、多协议能力的支持,使得 Dubbo 联通不一样的微服务体系成为可能,而服务发现模型的不一致成为其中的一个障碍,这部分的场景描述请参见如下文章:点击查看

3.2 更大规模的微服务集群 - 解决性能瓶颈

这部分涉及到和注册中心、配置中心的交互,关于不一样模型下注册中心数据的变化,以前原理部分咱们简单分析过。为更直观的对比服务模型变动带来的推送效率提高,咱们来经过一个示例看一下不一样模型注册中心的对比:

图中左边是微服务框架的一个典型工做流程,Provider 和  Consumer 经过注册中心实现自动化的地址通知。其中,Provider 实例的信息如图中表格所示:应用 DEMO 包含三个接口 DemoService 1 2 3,当前实例的 ip 地址为 10.210.134.30。

  • 对于 Spring Cloud 和 Kubernetes 模型,注册中心只会存储一条 DEMO - 10.210.134.30+metadata 的数据
  • 对于老的 Dubbo 模型,注册中心存储了三条接口粒度的数据,分别对应三个接口 DemoService 1 2 3,而且不少的址数据都是重复的

能够总结出,基于应用粒度的模型所存储和推送的数据量是和应用、实例数成正比的,只有当咱们的应用数增多或应用的实例数增加时,地址推送压力才会上涨。

而对于基于接口粒度的模型,数据量是和接口数量正相关的,鉴于一个应用一般发布多个接口的现状,这个数量级自己比应用粒度是要乘以倍数的;另一个关键点在于,接口粒度致使的集群规模评估的不透明,相对于实i例、应用增加都一般是在运维侧的规划之中,接口的定义更多的是业务侧的内部行为,每每能够绕过评估给集群带来压力。

以 Consumer 端服务订阅举例,根据我对社区部分 Dubbo 中大规模头部用户的粗略统计,根据受统计公司的实际场景,一个 Consumer 应用要消费(订阅)的 Provier 应用数量每每要超过 10 个,而具体到其要消费(订阅)的的接口数量则一般要达到 30 个,平均状况下 Consumer 订阅的 3 个接口来自同一个 Provider 应用,如此计算下来,若是以应用粒度为地址通知和选址基本单位,则平均地址推送和计算量将降低 60% 还要多。

而在极端状况下,也就是当 Consumer 端消费的接口更多的来自同一个应用时,这个地址推送与内存消耗的占用将会进一步获得下降,甚至能够超过 80% 以上。

一个典型的几段场景便是 Dubbo 体系中的网关型应用,有些网关应用消费(订阅)达 100+ 应用,而消费(订阅)的服务有 1000+ ,平均有 10 个接口来自同一个应用,若是咱们把地址推送和计算的粒度改成应用,则地址推送量从原来的 n 1000 变为 n 100,地址数量下降可达近 90%。

4、应用级服务发现工做原理

4.1 设计原则

上面一节咱们从服务模型支撑大规模集群的角度分别给出了 Dubbo 往应用级服务发现靠拢的好处或缘由,但这么作的同时接口粒度的服务治理能力仍是要继续保留,这是 Dubbo 框架编程模型易用性、服务治理能力优点的基础。

如下是我认为咱们作服务模型迁移仍要坚持的设计原则:

  • 新的服务发现模型要实现对原有 Dubbo 消费端开发者的无感知迁移,即 Dubbo 继续面向 RPC 服务编程、面向 RPC 服务治理,作到对用户侧彻底无感知
  • 创建 Consumer 与 Provider 间的自动化 RPC 服务元数据协调机制,解决传统微服务模型没法同步 RPC 级接口配置的缺点

4.2 基本原理详解

应用级服务发现做为一种新的服务发现机制,和之前 Dubbo 基于 RPC 服务粒度的服务发如今核心流程上基本上是一致的:即服务提供者往注册中心注册地址信息,服务消费者从注册中心拉取&订阅地址信息。

这里主要的不一样有如下两点:

4.2.1 注册中心数据以“应用 - 实例列表”格式组织,再也不包含 RPC 服务信息

如下是每一个 Instance metadata 的示例数据,总的原则是 metadata 只包含当前 instance 节点相关的信息,不涉及 RPC 服务粒度的信息。

整体信息归纳以下:实例地址、实例各类环境标、metadata service 元数据、其余少许必要属性。

{

    "name": "provider-app-name",

    "id": "192.168.0.102:20880",

    "address": "192.168.0.102",

    "port": 20880,

    "sslPort": null,

    "payload": {

        "id": null,

        "name": "provider-app-name",

        "metadata": {

            "metadataService": "{\"dubbo\":{\"version\":\"1.0.0\",\"dubbo\":\"2.0.2\",\"release\":\"2.7.5\",\"port\":\"20881\"}}",

            "endpoints": "[{\"port\":20880,\"protocol\":\"dubbo\"}]",

            "storage-type": "local",

            "revision": "6785535733750099598",

        }

    },

    "registrationTimeUTC": 1583461240877,

    "serviceType": "DYNAMIC",

    "uriSpec": null

}

4.2.2 Client – Server 自行协商 RPC 方法信息

在注册中心再也不同步 RPC 服务信息后,服务自省在服务消费端和提供端之间创建了一条内置的 RPC 服务信息协商机制,这也是“服务自省”这个名字的由来。服务端实例会暴露一个预约义的 MetadataService RPC 服务,消费端经过调用 MetadataService 获取每一个实例 RPC 方法相关的配置信息。

当前 MetadataService 返回的数据格式以下:

[

  "dubbo://192.168.0.102:20880/org.apache.dubbo.demo.DemoService?anyhost=true&application=demo-provider&deprecated=false&dubbo=2.0.2&dynamic=true&generic=false&interface=org.apache.dubbo.demo.DemoService&methods=sayHello&pid=9585&release=2.7.5&side=provider×tamp=1583469714314",  "dubbo://192.168.0.102:20880/org.apache.dubbo.demo.HelloService?anyhost=true&application=demo-provider&deprecated=false&dubbo=2.0.2&dynamic=true&generic=false&interface=org.apache.dubbo.demo.DemoService&methods=sayHello&pid=9585&release=2.7.5&side=provider×tamp=1583469714314",   "dubbo://192.168.0.102:20880/org.apache.dubbo.demo.WorldService?anyhost=true&application=demo-provider&deprecated=false&dubbo=2.0.2&dynamic=true&generic=false&interface=org.apache.dubbo.demo.DemoService&methods=sayHello&pid=9585&release=2.7.5&side=provider×tamp=1583469714314" ]

熟悉 Dubbo 基于 RPC 服务粒度的服务发现模型的开发者应该能看出来,服务自省机制机制将之前注册中心传递的 URL 一拆为二:

  • 一部分和实例相关的数据继续保留在注册中心,如 ip、port、机器标识等
  • 另外一部分和 RPC 方法相关的数据从注册中心移除,转而经过 MetadataService 暴露给消费端

理想状况下是能达到数据按照实例、RPC 服务严格区分开来,但明显能够看到以上实现版本还存在一些数据冗余,有些也数据还未合理划分。尤为是 MetadataService 部分,其返回的数据还只是简单的 URL 列表组装,这些 URL实际上是包含了全量的数据。

如下是服务自省的一个完整工做流程图,详细描述了服务注册、服务发现、MetadataService、RPC 调用间的协做流程。

  • 服务提供者启动,首先解析应用定义的“普通服务”并依次注册为 RPC 服务,紧接着注册内建的 MetadataService 服务,最后打开 TCP 监听端口
  • 启动完成后,将实例信息注册到注册中心(仅限 ip、port 等实例相关数据),提供者启动完成
  • 服务消费者启动,首先依据其要“消费的 provider 应用名”到注册中心查询地址列表,并完成订阅(以实现后续地址变动自动通知)
  • 消费端拿到地址列表后,紧接着对 MetadataService 发起调用,返回结果中包含了全部应用定义的“普通服务”及其相关配置信息
  • 至此,消费者能够接收外部流量,并对提供者发起 Dubbo RPC 调用

在以上流程中,咱们只考虑了一切顺利的状况,但在更详细的设计或编码实现中,咱们还须要严格约定一些异常场景下的框架行为。好比,若是消费者 MetadataService 调用失败,则在重试知道成功以前,消费者将不能够接收外部流量。

4.3 服务自省中的关键机制

4.3.1 元数据同步机制

Client 与 Server 间在收到地址推送后的配置同步是服务自省的关键环节,目前针对元数据同步有两种具体的可选方案,分别是:

  • 内建 MetadataService
  • 独立的元数据中心,经过中细化的元数据集群协调数据

内建 MetadataService

MetadataService 经过标准的 Dubbo 协议暴露,根据查询条件,会将内存中符合条件的“普通服务”配置返回给消费者。这一步发生在消费端选址和调用前。

元数据中心

复用 2.7 版本中引入的元数据中心,provider 实例启动后,会尝试将内部的 RPC 服务组织成元数据的格式到元数据中心,而 consumer 则在每次收到注册中心推送更新后,主动查询元数据中心。

注意 consumer 端查询元数据中心的时机,是等到注册中心的地址更新通知以后。也就是经过注册中心下发的数据,咱们能明确的知道什么时候某个实例的元数据被更新了,此时才须要去查元数据中心。

4.3.2 RPC 服务 < - > 应用映射关系

回顾上文讲到的注册中心关于“应用 - 实例列表”结构的数据组织形式,这个变更目前对开发者并非彻底透明的,业务开发侧会感知到查询/订阅地址列表的机制的变化。具体来讲,相比以往咱们基于 RPC 服务来检索地址,如今 consumer 须要经过指定 provider 应用名才能实现地址查询或订阅。

老的 Consumer 开发与配置示例:

<!-- 框架直接经过 RPC Service 1/2/N 去注册中心查询或订阅地址列表 -->

<dubbo:registry address="zookeeper://127.0.0.1:2181"/>

<dubbo:reference interface="RPC Service 1" />

<dubbo:reference interface="RPC Service 2" />

<dubbo:reference interface="RPC Service N" />

新的 Consumer 开发与配置示例:

<!-- 框架须要经过额外的 provided-by="provider-app-x" 才能在注册中心查询或订阅到地址列表 -->

<dubbo:registry address="zookeeper://127.0.0.1:2181?registry-type=service"/>

<dubbo:reference interface="RPC Service 1" provided-by="provider-app-x"/>

<dubbo:reference interface="RPC Service 2" provided-by="provider-app-x" />

<dubbo:reference interface="RPC Service N" provided-by="provider-app-y" />

以上指定 provider 应用名的方式是 Spring Cloud 当前的作法,须要 consumer 端的开发者显示指定其要消费的 provider 应用。

以上问题的根源在于注册中心不知道任何 RPC 服务相关的信息,所以只能经过应用名来查询。

为了使整个开发流程对老的 Dubbo 用户更透明,同时避免指定 provider 对可扩展性带来的影响(参见下方说明),咱们设计了一套 RPC 服务到应用名的映射关系,以尝试在 consumer 自动完成 RPC 服务到 provider 应用名的转换。

Dubbo 之因此选择创建一套“接口-应用”的映射关系,主要是考虑到 service - app 映射关系的不肯定性。一个典型的场景便是应用/服务拆分,如上面提到的配置<dubbo:reference interface="RPC Service 2" provided-by="provider-app-x" />,PC Service 2 是定义于 provider-app-x 中的一个服务,将来它随时可能会被开发者分拆到另一个新的应用如 provider-app-x-1 中,这个拆分要被全部的 PC Service 2 消费方感知到,并对应用进行修改升级,如改成<dubbo:reference interface="RPC Service 2" provided-by="provider-app-x-1" />,这样的升级成本不能否认仍是挺高的。

究竟是 Dubbo 框架帮助开发者透明的解决这个问题,仍是交由开发者本身去解决,固然这只是个策略选择问题,而且 Dubbo 2.7.5+ 版本目前是都提供了的。其实我我的更倾向于交由业务开发者经过组织上的约束来作,这样也可进一步下降 Dubbo 框架的复杂度,提高运行态的稳定性。

5、总结与展望

应用级服务发现机制是 Dubbo 面向云原生走出的重要一步,它帮 Dubbo 打通了与其余微服务体系之间在地址发现层面的鸿沟,也成为 Dubbo 适配 Kubernetes Native Service 等基础设施的基础。咱们指望 Dubbo 在新模型基础上,能继续保留在编程易用性、服务治理能力等方面强大的优点。可是咱们也应该看到应用粒度的模型一方面带来了新的复杂性,须要咱们继续去优化与加强;另外一方面,除了地址存储与推送以外,应用粒度在帮助 Dubbo 选址层面也有进一步挖掘的潜力。