B-Tree算法
B-Tree(区别于二叉树)是一种平衡多叉搜索树。
1 B-Tree的定义
根据Knuth的定义,\({\displaystyle m}\)阶的B-Tree有如下的特性:
- 节点左边的元素都比它小,节点右边的元素都比它大
- 每个节点最多有\({\displaystyle m}\)个子节点
- 除了根节点之外,非叶节点(没有孩子的节点)至少有\({\displaystyle m/2}\)个子节点
- 如果根节点不是叶子节点则其至少有两个子节点
- 包含\({\displaystyle k}\)个子节点的节点共有\({\displaystyle k-1}\)个键
- 所有的叶子节点的高度相同
一般表示B-Tree有两种表示方法:
- B-Tree of order \({\displaystyle d}\) or \({\displaystyle M}\)
- B-Tree of degree or \({\displaystyle t}\)
1.1 Kuath: B-Tree of Order \({\displaystyle d}\)
其中\({\displaystyle M=5}\) 表示每一个节点中至多有5个子节点;则有如下的特性: \[ \begin{align} &Max(children) = 5 \\ &Min(children) = ceil(M/2) = 3 \\ &Max(keys) = Max(children) - 1 = 4 \\ &Min(keys) = Min(children) - 1 = 2 \end{align} \]
1.2 CLRS: B-Tree of min degree \({\displaystyle t}\)
而\({\displaystyle t=5}\) 则定义了一个节点中至少有5个子节点 \[ \begin{align} &Max(children) = 2t = 10 \\ &Min(children) = t = 5 \\ &Max(keys) = 2t -1 = 9 \\ &Min(keys) = t - 1 = 4 \end{align} \]
这里degree指的是一个节点中子节点的数目。CLRS中用的最小度,即节点中最少有多少个子节点。例如t=2即表示的是2-3-4 tree,每个子节点中可以有2、3或者4个children。
1.3 CS673: B-tree of maximum degree k
而也有使用Max degree的,例如DB Virtualization里面,使用的就是最大度(即最多有k个子节点),则:
- 所有的interior node最少有k/2个children,最多有k个
- 2-3树即对应到maximum degree of 3
1.4 对应关系
这些表示方法的对应关系如下:
| Kunth Order, k | CLRS min degree | CS673 max defree | (min, max) children |
|---|---|---|---|
| k=0 | - | - | - |
| k=1 | - | - | - |
| k=2 | - | - | - |
| k=3 | - | t=3 | (2, 3) |
| k=4 | t=2 | t=4 | (2, 4) |
| k=5 | - | t=5 | (3, 5) |
| k=6 | t=3 | t=6 | (3, 6) |
| k=7 | - | t=7 | (4, 7) |
| k=8 | t=4 | t=8 | (4, 8) |
| k=9 | - | t=9 | (5, 9) |
| k=10 | t=5 | t=10 | (5, 10) |
可见Order实际等价于max degree。
2 算法复杂度
根据B-Tree的定义(Min Degree t),如果Btree的高度为\({\displaystyle h}\), 考虑最少含有多少个key, 则当:
- Root节点包含1个key
- 其他所有节点有且仅有有\({\displaystyle t-1}\) 个key
这种场景时,所包含的key最少:
设\({\displaystyle S_{h}}\)为Btree第h层的节点数,容易看出:
- 当\({\displaystyle depth=0}\) 时,\({\displaystyle S_{0}=1}\)
- 当\({\displaystyle depth=1}\) 时,\({\displaystyle S_{1}=2}\)
- 当\({\displaystyle depth=2}\) 时,\({\displaystyle S_{2}=2\cdot t}\)
- 当\({\displaystyle depth=h}\) 时,\({\displaystyle S_{h}=2\cdot t^{h-1}}\)
从\({\displaystyle h=1}\)开始,每一层的key数目即\({\displaystyle S(key)_{h}=S_{h}\cdot (t-1)}\),根据等比数列求和公式即可算出总的key数目为:
\[ \begin{aligned} Min(keys) &=1 + \sum_{i=1}^{h}{(t-1)\cdot 2t^{i-1}} \\ &=1 + (t-1)\sum_{i=1}^{h}{2t^{i-1}} \\ &=1 + 2(t-1)\sum_{i=1}^{h}{t^{i-1}} \\ &=1 + 2(t-1){\Big(\frac{1-t^h}{1-t}\Big)} \\ &=2t^h-1 \end{aligned} \]
设\({\displaystyle n}\) 为B-Tree的所有key数,则有:
\[ \begin{aligned} n &\geq Min(keys) \\ &=2t^h-1 \end{aligned} \]
可以得:
\[ h \leq log_{t}\frac{1+n}{2} \]
其算法时间和空间复杂度如下:
| 平均 | 最坏 | |
|---|---|---|
| 空间复杂度 | \(O(n)\) | \(O(n)\) |
| 查找 | \(O(log \quad n)\) | \(O(log \quad n)\) |
| 插入 | \(O(log \quad n)\) | \(O(log \quad n)\) |
| 删除 | \(O(log \quad n)\) | \(O(log \quad n)\) |
3 B-tree算法实现
3.1 search操作
根据B-tree的定义,左边的key都比其小,右边皆比其大,则不应该存在重复的key。查找算法类似于2叉树的查找,步骤如下:
- 从根节点开始,依次同节点中\({\displaystyle k_{i}}\)进行比较,如果大于或者等于\({\displaystyle k_{i}}\)则停止
- 如果找到相等的key,则停止搜索
- 如果没有找到,则到下一级节点中进行查找;如果已经是叶子节点,则查找结束
通常当\({\displaystyle M}\)较小时,我们在节点中查找的时候只需要进行顺序查找即可;如果较大的情况下,可以进行二分查找提高搜索的效率。
B-TREE-SEARCH(x, k)
i ← 1
while i ≤ n[x] and k ≥ key[x, i]
do i ← i + 1
if i ≤ n[x] and k = key[x, i]
then return (x, i)
if leaf[x]
then return NIL
else c = DISK-READ(c[x, i])
return B-TREE-SEARCH(c, k)
3.2 insert操作
3.2.1 节点的分裂
在进行insert之前,需要考虑的就是,btree规定了一个节点中最大的child的数目,当一个节点中子节点的数目超过允许的最大值的时候,需要将节点拆分为两个。例如上面的例子,如果再插入20的话,如果直接插入则子元素已经超出了最大允许的数目:
在上面的例子中,拆分之后,两个子节点的元素个数正好是平均的,但是,如果order为偶数的情况下是不平均的:
值得注意的是,因为每次分裂高度会增加,同时会增加父元素的key个数,那么也可能导致父节点满。所以如果上层节点也满了的话,也是需要递归的分裂的:
3.2.2 节点插入过程
当order为奇数时,插入A~Q的过程如下:
当order为偶数时,插入A-J的过程如下:
在Insert的过程中,一般的做法是先将元素插入到叶节点,这时候如果发现叶节点满了,需要将其Split,并将其中一个key提升到父节点中。同时,需要看父节点是否满,如果满了也需要进行拆分,直到根节点。但是这种做法需要插入后再回溯,比较难以实现。另一种方式则是在插入的过程中,一旦发现节点已经满了,无法再容纳元素,则先将其拆分,然后再继续朝下查找。这样只需要查找一次,再最后插入到叶子节点的时候,能够保证不会溢出。
3.2.3 抢占式分裂(Preemtive Split)
如上所说,在insert操作的时候,是先插入元素,然后再进行拆分的,这样可能插入之后还需要一直递归到上层节点进行拆分。例如下面的一个场景:
而Preemtive Split正是在insert之前即进行拆分,当发现一个节点快要满了的时候,就先split之后再插入,自顶向下,不需要再回溯到上一层的节点。
从上面的例子可以看到,两种方式构造出的Btree在插入I之后其实是不大一样的,而当J插入之后则变成一致了。
3.3 创建一个空的B-tree
B-TREE-CREATE(T)
x ← ALLOCATE-NODE()
leaf[x] ← TRUE
n[n] ← 0
DISK-WRITE(x)
root[T] ← x
3.4 删除操作
4 B-Tree变种
- 2-3-4树:Order为4的B-tree又被称之为2-3-4 tree (每个非叶子节点有2个、3个或者4个子节点)
- 2-3树:Order为3的B-tree又被称之为2-3 tree (每个非叶子节点有2个或者3个子节点)
- B+-tree:A B-tree in which keys are stored in the leaves.
- B*-tree:A B-tree in which nodes are kept 2/3 full by redistributing keys to fill two child nodes, then splitting them into three nodes.
参考资料: