2022-05-11发表2022-05-30更新5 分钟读完 (大约684个字)

CMU15-445笔记(八)

Sort

2-Way-External Merge Sort

因为数据库的需要排序的数据可能内存装不下，所以可以分块的来进行排序。

首先每次读取B个pages进入内存中
然后将他们排序后的副本放入disk中
取两个已经排好序的副本进行归并排序，循环，直到所有都排好序
其实就是一个归并排序

每次从disk中读取页再写回的时候，用到了两次IO，所以每次传递的IO总共是2 * N I/O，需要$log_2(N)$的排序次数，最终加上第一次传递的IO，最终总的IO是
$$ 2N * (1 + log_2(N))$$

可以从图中看出，每次排序的时候，需要两个buffer page 来存储即将要排序的两个页，然后再有一个page 来存储排序后的结果，所以一共需要三个 buffer page
Double Buffering Optimization
就是当一个run 正在排序的时候，将另一个即将要排序的run 预读取到另一个buffer 中

General External Merge Sort

Using B+ Trees For Sorting

Clustered B+Tree

聚簇索引中的B+树的叶子叶子节点已经排好序了，所以直接遍历就行

Unclustered B+Tree

非聚簇索引中，叶子节点存储的是数据的主键/指针，所以需要多进行一次IO才能获取数据

Aggregations

实现有两种方式sort 和 hash

Sort

Hash

有一些是聚合是不需要排序（Group By Distinct）的，普遍情况下Hash速度更快
对于Distin来说，只需要丢弃相同hash值的数据就可以了，Group By只需要将相同hash值的数据聚合在一起。
对于数据过多，内存容量不够的情况来说需要External Hashing Aggregate

External Hashing Aggregate

当内存不足的时候，假设现在有B个buffer page，我们可以使用B-1个buffer page当作分区（少的那一个作为input data的buffer page），对于每个key，我们用h1来进行hash操作，将每个key的数据分别放到B-1个buffer page当中，称作分区，然后分别取出每个分区，对每个分区使用h2来进行hash，将key放入hash table（需要处理最后的碰撞）中，这样就可以得出最后结果。

CMU15-445笔记(八)

http://example.com/2022/05/11/CMU15-445笔记-八/

作者

xiaomaotou31

发布于

2022-05-11

更新于

2022-05-30

许可协议

#CMU-15-445

CMU15-445笔记(八)

Sort

2-Way-External Merge Sort

Double Buffering Optimization

General External Merge Sort

Using B+ Trees For Sorting

Clustered B+Tree

Unclustered B+Tree

Aggregations

Sort

Hash

External Hashing Aggregate

作者

发布于

更新于

许可协议

评论

目录

最新文章

归档

标签