etcd快速入门

  • etcd概念
  • etcd 与 Zookeeper 的比较
  • etcd 应用场景
  • 如何保证一致性?
  • 数据模型

1. etcd概念

“A distributed, reliable key-value store for the most critical data of a distributed system”

etcd 是一个分布式、可靠 key-value 存储的分布式系统。当然,它不仅仅用于存储,还提供共享配置及服务发现。


2. etcd 与 Zookeeper 的比较

提供配置共享和服务发现的系统很多,其中Zookeeper较为知名。但在项目实现、一致性协议易理解性、运维、安全等多个维度上,etcd 相比 zookeeper 都占据优势。

  • 一致性协议: etcd 使用 Raft 协议,Zookeeper 使用 ZAB协议,前者容易理解,方便工程实现。
  • 运维方面:etcd 方便运维,Zookeeper 难以运维。
  • 数据存储:etcd 多版本并发控制(MVCC)数据模型,支持查询先前版本的键值对。
  • 项目活跃度:etcd 社区与开发活跃,Zookeeper 使用日益减少。
  • API:etcd 提供 HTTP+JSON, gRPC 接口,跨平台跨语言,而 Zookeeper 需要使用其客户端。
  • 访问安全方面:etcd 支持 HTTPS 访问,Zookeeper 在这方面缺失。

3. etcd 应用场景

etcd 比较多的应用场景是用于服务发现,服务发现 (Service Discovery) 要解决的是分布式系统中最常见的问题之一,即在同一个分布式集群中的进程或服务如何才能找到对方并建立连接。和 Zookeeper 类似,etcd 有很多使用场景,包括:

  • 配置管理
  • 服务注册发现
  • 选举
  • 应用调度
  • 分布式队列
  • 分布式锁

4. 如何保证一致性?

etcd 使用 raft 协议来维护集群内各个节点状态的一致性。简单说,etcd 集群是一个分布式系统,由多个节点相互通信构成整体对外服务,每个节点都存储了完整的数据,并且通过 Raft 协议保证每个节点维护的数据是一致的。

每个 etcd 节点都维护了一个状态机,并且,任意时刻至多存在一个有效的主节点。主节点处理所有来自客户端写操作,通过 Raft 协议保证写操作对状态机的改动会可靠的同步到其他节点。


5. 数据模型

etcd 的设计目标是用来存放非频繁更新的数据,提供可靠的 Watch插件,它暴露了键值对的历史版本,以支持低成本的快照、监控历史事件。这些设计目标要求它使用一个持久化的、多版本的、支持并发的数据数据模型。

当 etcd 键值对的新版本保存后,先前的版本依然存在。从效果上来说,键值对是不可变的,etcd 不会对其进行 in-place 的更新操作,而总是生成一个新的数据结构。为了防止历史版本无限增加,etcd 的存储支持压缩(Compact)以及删除老旧版本。

5.1 逻辑视图

从逻辑角度看,etcd 的存储是一个扁平的二进制键空间,键空间有一个针对键(字节字符串)的词典序索引,因此范围查询的成本较低。

键空间维护了多个修订版本(Revisions),每一个原子变动操作(一个事务可由多个子操作组成)都会产生一个新的修订版本。在集群的整个生命周期中,修订版都是单调递增的。修订版同样支持索引,因此基于修订版的范围扫描也是高效的。压缩操作需要指定一个修订版本号,小于它的修订版会被移除。

一个键的一次生命周期(从创建到删除)叫做 “代 (Generation)”,每个键可以有多个代。创建一个键时会增加键的版本(version),如果在当前修订版中键不存在则版本设置为1。删除一个键会创建一个墓碑(Tombstone),将版本设置为0,结束当前代。每次对键的值进行修改都会增加其版本号 — 在同一代中版本号是单调递增的。

当压缩时,任何在压缩修订版之前结束的代,都会被移除。值在修订版之前的修改记录(仅仅保留最后一个)都会被移除。

5.2 物理视图

etcd 将数据存放在一个持久化的 B+ 树中,处于效率的考虑,每个修订版仅仅存储相对前一个修订版的数据状态变化(Delta)。单个修订版中可能包含了 B+ 树中的多个键。

键值对的键,是三元组(major,sub,type):

  • major:存储键值的修订版
  • sub:用于区分相同修订版中的不同键
  • type:用于特殊值的可选后缀,例如 t 表示值包含墓碑
    键值对的值,包含从上一个修订版的 Delta。B+ 树 —— 键的词法字节序排列,基于修订版的范围扫描速度快,可以方便的从一个修改版到另外一个的值变更情况查找。

etcd 同时在内存中维护了一个 B 树索引,用于加速针对键的范围扫描。索引的键是物理存储的键面向用户的映射,索引的值则是指向 B+ 树修该点的指针。

Author

Lamber

Posted on

2022-01-11

Updated on

2022-02-10

Licensed under