评估超融合平台到底须要关注哪些核心问题?


1.超融合平台整合了哪些 IT 服务?算法



1) 分布式存储打破数据孤岛


虽然说超融合经过软件定义的方式整合了多个 IT 服务,但其中软件定义存储是基石。这里须要说明一下:池化服务器的本地存储,要求软件定义存储必须是分布式的,且能被虚拟机挂在成虚拟卷使用,不加特殊的说明,超融合平台里的软件定义存储指的是分布式块存储。


没有稳定可靠的分布式块存储,就没法对外提供统一的存储资源抽象,没有统一的抽象,各个服务器的本地存储就是一个个数据孤岛,与传统的单机存储没有区别。因此,讨论超融合平台却不讨论分布式块存储,而拈轻怕重的展现平台 IT 服务的种类,更甚者居然用支持 IT 种类的多少做为超融合的代数标准,基本能够断定是一种“误导”,本质是这类厂商不具有超融合与分布式存储的研发能力。主流核心厂商都无一例外的在分布式块存储上有着核心的竞争力和自主研发能力,好比:Nutanix Acropolis Enterprise Storage (内部以前叫 NDFS), VMware VSAN ,SmartX ZBS等 都是对应超融合平台里的核心分布式存储。


2)虚拟化计算一样不可或缺


虚拟化计算是超融合平台另外一个不可或缺的服务,有了存储和计算就有了最基本的 IT 基础架构,不少厂商也会一部分网络服务的功能归入到虚拟化计算。因为 Hypervisor 的技术相对成熟,不管是闭源的 VMware ESXi 仍是开源的 KVM,不管功能仍是性能都经过了不少年市场验证。因此虚拟化计算服务在超融合平台上基本集中在 VMware 产品和 基于 KVM 自研的产品,如:Nutanix 的 AHV(基于 KVM),VMware 的 vSphere(基于 ESXi),SmartX 的 Elf(基于 KVM)等。固然 Nutanix 和 SmartX 也一样支持 VMware 虚拟化计算平台,并且借助其强大的存储服务,总体超融合平台的表现甚至还要优于 VMware。


3)一个平台管理多个IT服务,运维简化是趋势


随着单个服务器计算能力愈来愈强,愈来愈多的 IT 服务其实均可以经过软件定义的方式来实现,如:灾备服务、全闪存、容器服务、网络服务、安全服务等。


一个平台上有多个 IT 服务是一种趋势,伴随着革命性的变化就是:传统架构下须要运维管理多个 IT 平台,在超融合下,一套管理平台就够了,这就为从全新的角度审视 IT 运维,提供了极大的想象空间。同时,在超融合架构下实现强大好用的统一管理平台,其重要性和优先级也被提高到史无前例的高度。像超融合领导厂商 Nutanix,SmartX 等,在运维管理平台上都下足了功夫,分别推出了智能强大的管理平台:Nutanix Prism 和 SmartX Fisheye,极大的提高系统的易用性。


总结一下就是,超融合平台里分布式块存储、虚拟化计算和统一运维管理平台是最小,也是最核心的集合,缺乏任何一个都没法称做超融合平台。但随着硬件的发展,更多的服务势必会在超融合平台里实现。


2.这些IT服务是如何实现的?


评测超融合产品,关键不是看包含了哪些 IT 服务,向超融合这个“盒子”里塞更多的 IT 服务远不如塞进“盒子”IT 服务的质量重要。一些厂商借助客户对超融合市场认知的不成熟,会一味的拼超融合平台上服务和功能的数量。一般的作法就是拿开源的项目,如:“OpenStack + 开源分布式存储 (Ceph/GlusterFS…)” 搭一个功能看似大而全的“超融合平台”快速推向市场。能够看到,几乎没有用户最终可以真正的用起来,缘由在于这种拼凑的“超融合”产品每每各个服务组件的质量没法过关,在可靠性,稳定性,性能方面问题多多,加上开源社区基本不在这些 厂商的控制之下,所谓的售后支持形同虚设,很难达到一个产品应该拥有的市场准备度。


1)实现机制是核心


服务的核心在于实现它的技术和机制。举一个手机电池的例子,为了实现手机长续航的能力,一家厂商简单的增长电池块的容量,另外一家公司采用的是优化手机软件的电池管理算法,即使最后的测试下来都能续航两天,但第一家手机在续航的实现机制上是不如第二家的,由于增长电池块会引发手机发烫,而且有电池爆炸的风险,但这些缺陷没法在测试续航时间这个指标里得以体现。


一样的道理适用于超融合产品。超融合产品比拼最重要的必然是分布式块存储、虚拟化计算、运维管理平台的实现。


重中之重是软件定义存储,它是超融合平台的基石。当前市场里各家超融合平台分布式块存储的实现无非是两个途径:


自主研发,如:Nutanix NDFS,VMware VSAN,SmartX ZBS,华为 Fusion Storage;
直接采用开源的分布式存储或在开源基础上小幅改造,如,Ceph,GlusterFS;
开源最大的好处是产品上市的周期可极大的缩短,最大的风险除了存储的稳定性没有保障,还有就是厂商对存储的控制力和维护能力几乎没有,存储系统不比其它系统,守护着企业最重要的数据,一旦发生问题就会陷入一筹莫展的失控境地,给企业带来的损失是惨重而不可估量。


这里有一个不可忽视的事实,国外知名超融合厂商无一例外的都走了自主研发的道路,也证明了在成熟的市场环境下,用户会理性的选择自主可控且有保障的产品。纵观 IT 发展的历史,甚至没有一家存储公司,使用开源的存储项目来实现自家的存储产品,并取得产品和商业的成功。再次验证了,存储关乎业务的连续性、数据的可靠性和安全性。没有一家企业客户“敢”把本身的业务托付给不可控的存储产品。


市场上全部的分布式块存储架构基本能够收敛到两种,一种数据放置和分布依赖元数据服务,另外一种数据放置和分布依赖一致性哈希。但就分布式块存储自己而言,两种数据架构各有千秋。但在超融合场景上,元数据服务的方式有更多的优点,数据的放置更灵活可控,如:VM 数据本地化能缩短 I/O 路径,大大减小网络流量。采用这种架构的产品有 Nutanix NDFS 和 SmartX ZBS。


其次是虚拟化计算,与存储不一样的是,虚拟化的核心技术 Hypervisor 相对成熟。各超融合产品更多比拼的是虚拟化平台的支持能力。支持多种虚拟化平台意味着更少的厂商绑定的风险。此外,是否支持虚拟化的特殊接口也是很重要的指标,它直接影响使用体验和维护支持,好比:VMware VAAI/VVol,Citrix Ready 等。这块比较优秀的国外厂商是 Nutanix,几乎支持全部的虚拟化平台;国内厂商 SmartX、华为支持除 Hyper-v 之外的全部虚拟化平台;VMware 只支持自家的虚拟化平台,开源超融合方案通常只支持 KVM。


KVM 做为开源的 Hypervisor 被不少厂商选用,但各家须要实现本身的虚拟化计算管理平台,除了基本的 VM 生命周期管理,还至少须要实现企业级经常使用的功能,如:VM HA、、虚拟分布式交换机、共享盘等。


除了存储和计算,其余 IT 服务或多或少会依赖以上两类核心服务,好比:容灾和备份依赖存储服务;容器编排依赖计算服务。


2)资源消耗需着重评估


除了服务的实现机制,超融合平台有一项特殊的要求:资源消耗要尽量的小。超融合场景下,消耗大量的资源是绝对不能接受的,每一个物理服务器除了运行存储、计算等多个 IT 服务,还要把剩余的资源分配留给业务应用,IT 服务占用资源越大,留给业务应用的资源就越小,甚至挤压到业务没法运行。资源消耗不只节省 TCO 的指标,更是影响超融合实用性的重要变量。


如下收集了各厂商分布式块存储产品的资源消耗状况。



3. 服务如何进行整合与管理?


1)各有利弊的三类服务整合方式


服务整合广义是超融合平台上各服务的结合方式,但业内讨论更多的是存储与虚拟化的整合。大体能够分为三类:


存储服务做为内核模块运行在 Hypervisor 内部。最典型的表明是 VxRail,存储服务 VSAN 做为 ESXi/vSphere 内核模块被整合 。这种架构下存储服务不通过Hypervisor直接访问存储设备,几乎无性能损耗,理论上本地 I/O 性能能够充分发挥,遗憾的是 VSAN 的实际性能在超融合产品里并不突出,应该是存储软件的优化相比其它厂商还有差距。这种紧耦合架构存在如下风险: 
厂商锁定的风险,如 VMware 超融合平台虚拟化计算锁死了 vSphere;
计算和存储没法独立升级;
存储或虚拟化计算服务任何一个发生问题均可能会影响对方的正常工做。

存储服务运行于 Hypervisor 上独立的虚拟机里,该虚拟机实际起到虚拟存储设备 VSA(Virtual Storage Applicance)的做用,因此也称为控制虚拟机(Nutanix 称 CVM)或者存储控制虚拟机(SmartX 称 SCVM)。VSA 须要经过 Hypervisor 访问物理硬件资源,通常为了下降性能的开销,VM 会以直通的方式访问硬件资源,如:HDD,SSD,网卡等。这种架构里虚拟化与存储解耦,互不影响,能够独立升级,甚至 VSA 发生故障不工做,也不会影响该物理节点,经过 I/O 路由的技术,VSA 故障节点上的 VM 会经过其余正常的 VSA 访问存储资源。固然,给用户带来的最大收益还有消除了 Hypervisor 锁定的风险,VSA 能够支持多种虚拟化计算平台。 采用这种整合的产品有 Nutanix,SmartX Halo for VMware。

存储服务运行在 Hypervisor 外部,但与 Hypervisor 隶属于同一个软件栈。这种架构适用于 KVM 超融合平台。好比,SmartX Halo 超融合平台自带的虚拟化平台 Elf 基于 KVM 实现,分布式块存储 ZBS 与 Elf 都在 Halo (SmartX OS) 软件栈上。这种整合的最大优点在于: 
性能相比 VSA 的方式要好;
存储或者 Hypervisor 出现故障互不影响。
2)管理与运维好才能发挥出超融合的优点

因为涉及比传统平台更多的 IT 服务,超融合更增强调管理平台的重要性和易用性。强大好用的管理平台能大大提高运维效率,下降运维成本,将超融合架构敏捷的特性发挥得淋漓尽致。

超融合厂商产品家的管理平台一览:

一个优秀的超融合管理平台应该涵盖产品从交付到平常运维的方方面面:

基于 Web 管理 UI 应该是超融合平台的标配,同时 Web 管理服务也是超融合服务的一种,须要考虑管理控制台的的高可用;Nutanix Prism 和 SmartX Fisheye 都是分布式的管理平台,没有单点故障,相比之下 VMware vCenter 就存在单点故障的风险;
集群服务管理,包括:存储,虚拟化,网络等管理;更进一步,因为采用了软件定义的技术,管理平台也应该能展现并洞察更细粒度服务,好比:软件定义存储里的分布式组件服务;

基于事件、性能的监控、分析和报警,能够说各家的产品或多或少都在这块有支持,可是仔细研究会发现功能丰富度和易用性各产品差异巨大。这块作得很是突出的是 Nutanix 和SmartX的产品,两家都能在全局集群、物理服务器、虚拟机三个层面提供丰富的性能和事件的监控、分析和报警。api


自动化、图形化的安装工具。简易安装和部署不只是系统快速上线的关键,也是超融合做为软件交付的必要前提,像 Nutanix Foundation和SmartX Tuna 都提供了很是方便的 UI 安装和部署工具,整个部署过程一般能在 1 个小时内完成;
系统硬件管理,好的管理平台也应该能支持数据中心硬件的拓扑管理和配置,这方面 VMware,Nutanix,SmartX 都很是优秀,尤为是 Nutanix 和 SmartX 都提供了基于集群拓扑的管理。
4.产品有哪些交付方式?


超融合依托标准的 x86 服务器,通常能够是安装了超融合软件的一体机或者是独立的软件受权。当前主流厂商支持的交付方式以下:

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------安全