微服务实践：服务治理

时间 2021-01-03

微服务实践：服务治理

在微服务的演进过程中，为了最大化利用微服务的优势，保障系统的高可用性，需要通过一些类的服务支撑组件来协助服务间有效的协作，这便是服务治理的范畴。

注册发现

为什么需要服务注册发现

　　在微服务系统中，服务的消费者需要知道服务提供者的网络地址，才能与之通信。比较简单的实现方式是直接在消费者端或者负载均衡器上进行注册，在发生变化时手动更新。随着服务数量的增多，这种方式会面领如下挑战：

手动注册实例地址的成本高
无法识别服务重启后的网络地址的变化

服务注册发现——客户端发现

　　当服务发现的逻辑位于服务消费者端时，称为客户端发现。服务发现简单来说，服务注册发现的过程（客户端发现），共分为以下3个步骤：

　　1、服务提供者将实例信息注册到注册中心。

　　2、服务调用者根据服务标识，从注册中心查询服务，获取包含网络地址的服务实例列表。

　　3、与服务实现通信。

　　客户端发现的缺点是实现起来较为复杂，因为在各个服务消费者中需要完成以下功能：首先需要维护服务提供者的列表，并且需要不断与注册中心同步以获取服务最新信息；其次，如果服务部署多实例，服务消费者需要实现路由逻辑，即实现负载均衡器。

服务注册发现——服务端发现

　　1、服务提供者实例向注册中心注册地址信息。

　　2、调用者向服务发送请求，请求被送到负载均衡器。

　　3、负载均衡器从服务注册中心查找服务体用这注册的信息。

　　4、负载均衡器将请求转发给具体的服务提供者实例。

　　服务端发现的好处是服务消费者的实现复杂度会降低。服务消费者只需要发送请求，不需要关心如何与注册中心交互。缺点是由于多个请求多了一次网络跳转，整体性能会有所损失，需要保证它的高可用性。

负载均衡

什么是负载均衡

　　为了提高可用性、降低延迟，同一个服务可能会部署多个实例，负载均衡就是为了在服务的多个实例之间进行分配负载，已达到优化资源使用、最大化吞吐率，同时避免过载。

服务端负载均衡

　　优点是负载均衡对于服务消费者来说是透明的，服务消费者完全感知不到负载均衡的存在，也不需要关心具体被转发至哪个实例。但是当服务数量或调用了增大时，一旦负载均衡器发生故障就导致整个系统不可用。常见的复杂均衡器有如下：

　　还有一些商用的负载均衡器，如F5、NetScaler、Array、AWD的ELB、华为云的ELB等。

客户端负载均衡

　　将负载均衡的功能以库的形式集成到服务消费中。服务消费者需要访问某服务时，需要通过内置的负载均衡组件向服务注册中心查询，得到可用的服务提供者列表，然后按照某种负载均衡策略选择一个目标服务地址，最后向目标服务发起请求。

　　服务端负载均衡将负载均衡能力实现在服务内部，因此服务消费者与提供者之间是直接调动，没有额外开销，性能较好。目前客户端负载均衡在很多开源框架中都有实现，如Spring Cloud、Dubbo、ServiceComb等。

负载均衡策略

随机策略
轮询策略
权重策略
响应事件策略

配置管理

　　服务在运行过程中，需要和其他服务协作，同时他也会依赖基础设施或其他服务完成某项业务功能。在这个过程中，就需要多样化的配置信息。

基础设施的连接信息
协作服务的地址信息
业务行为的配置参数
与特性相关的信息

　　源码中硬编码配置信息，虽然实现成本低，但是这种方式不仅缺乏灵活性，而且容易造成信息泄露。因此，较好的方式是将配置与代码分离。采用独立于代码的外部机制存储配置信息。

微服务的配置管理策略

　　下图为集中化的配置管理示意图：

　　其配置变更流程如下：

多实例的配置信息变更

　　对于服务多实例的场景，可以引入轻量级的消息代理，通过广播事件或者消息的方式通知各个实例更新配置。

容错机制

　　生产环境中的每个微服务并不是具有百分百的可靠性。一方面，线性系统的可靠性等于其所包含的每个组件的可靠性之乘积，而各个微服务之间存在错综复杂的关系，让它比线性系统更复杂。另一方面，服务之间跨网络调用，增加了调用失败的可能性。因此，如何保证微服务系统的可靠性，也变得更为复杂和困难。所以，微服务系统在设计之初就需要考虑容错机制，当系统负载过高时，可以确保核心业务不被破坏，以及当某个服务出错时，把影响范围降低到最小，避免整个系统不可用。下面介绍一下常见的容错模式。

限流

　　服务的流量可能是动态的，如果流量增加，超过服务承载范围，就会影响用户掩。通过限制服务能使用的资源，当监控到流量超过设定的阈值时，服务拒绝处理新的用户请求。当系统压力过大时，对系统的非核心业务进行限流，避免因压力过大导致整个系统奔溃。

超时和重试

　　超时时指当前消费者依赖的服务出现响应延迟时，消费者不用无限等待，而是根据事先设计的超时时间中断调用，及时释放Web容器、数据库等的连接资源。重试通常与超时结合起来，当出现超时时重新发起调用，常用于因网络抖动等导致服务调用出现超时的场景。

　　服务雪崩现象如下：

　　服务提供者不可用——>重试加大流量——>服务消费者不可用

　　对于服务提供者来说，可通过自动扩容和限流来应对。对于服务消费者来说需要引入服务降级来避免服务雪崩，具体措施包括隔离、熔断和回退。

服务隔离

　　微服务架构下系统会包含多个服务，每个服务拥有一个或多个消费者，服务负载过多或故障将影响所有消费者。消费者可以同时向多个服务发送请求，每个请求都消耗资源。当消费者向错误配置或未响应的服务发送请求时，客户端请求使用的资源可能无法及时释放，继续对服务请求会耗尽资源，如耗尽客户端的连接池，导致消费者对其他服务的请求也受到影响，进而不能再向其他服务发送请求。

　　在软件行业中，可以考虑通过资源隔离来防止有限的资源被耗尽：

　　服务A依赖于服务B、C、D，假设运行服务A的容器有120个线程，当服务B不可用时，服务A重试或外部流量增加，服务A的120个线程会因为服务B的不可用而耗尽。

　　如果采用线程隔离的机制，对于服务B、C、D的调用使用不同的连接池，每个服务各分配40个线程。当服务B不可用时，为服务B分配的线程会被耗尽，而为服务C、D分配的80个线程不受影响，服务A仍然可用。

　　使用隔离机制的好处在于：

防止引发服务级联故障
在发生服务故障的时保留一些功能，系统的其他服务和功能将继续运行。

熔断和回退

　　当电路发生短路时，断路器能够主动熔断电路，以避免灾难发生。借用断路器的原理，引入熔断机制，在服务出现非临时性的故障时，先通过回退机制（直接返回错误、返回空值/缺省值、返回缓存/备份数据）防止重复尝试执行可能失败的操作，同时检测故障是否持续，是否已解决。如果问题已经修复，则重新发起请求。

　　熔断机制可以通过「代理 → 断路器」统计最近发生的故障数，来决定是否继续操作或者返回异常。如图 3-40 所示，断路器的状态包括关闭状态、打开状态和半开状态。

　　● 关闭状态：在默认情况下，断路器处于关闭状态，如果调用持续出错，失败计数器在给定时间段内超过了阈值，断路器进入打开状态。

　　● 打开状态：在指定时间段内，不再向服务提供者发送请求，而是直接回退到失败的结果，此时断路器进入打开状态，并且启动超时计时器。

　　● 半开状态：计时器超时后，断路器进入半开状态，即允许发送少量请求进行尝试，并且通过成功计数器计算成功的请求数。如果调用仍然失败，则返回到打开状态，如果成功计数器超过阈值，则断路器回到关闭状态。

　　熔断机制提供稳定性，让服务从故障中恢复，并最大限度地减少性能的影响。这种机制可定制性较强，可以根据故障类型进行调整。例如，可以将超时计时器的超时时间逐步增加。最初可以将断路器置于打开状态几秒钟，然后如果故障没有解决，将超时时间增加到几分钟。