搜索|深入理解ES的倒排索引

原始数据比如是[1,3,6,7]这样，可能很长，在java中一个int是占用4个字节，可能通过切分词以后，倒排表的数据占用空间比原始数据还要大
这个时候，因为数组是有序的，可以将数组的每一项都减去前一项来代替当前的值，比如[1,2,3,1]
可以看到，通过这个简单的变形，倒排表的数组中的数据都减小了
然后就可以通过更小的bit来表示一个int的数，比如我可以用3个bit来表示上面的每一个数，这样的数据占用空间就会小很多，极限的情况下数组是连续的，可以使用一个bit来表示一个int数，可以减少到原来的1/32
当然实际情况下，数组不一定是连续的，这个时候可能就会使用分组了，比如3,5,7我使用4个bit来表示，6787，35465，,44656使用14bit来表示，这样想比使用32bit可以节省不少空间

从网上找到一张图，可以很好的说明这个算法

通过上面的案例可以发现，FOR算法的适用场景是，倒排表的数据排列比较稠密，即相邻元素之间的差值比较小，差值比较小，就可以使用更少的bit来表示一个int的数字了。

记住是RBM，不是RMB，不是RMB，不是RMB

RBM算法的全称是roaringBitMap

可以考虑倒排表中的元素大小是N，N的范围是【0,2^32-1】，因为int是32bit

那么将N/65536这个结果M是多少呢？他的余数K是多少呢

65536是2的16次幂，那么这个M的范围就是[0,65535]，毫无疑问N的范围也是[0,65535]

可以看到M就是当前元素N的高16位，K就是当前元素N的低16位

那么，可以设置这样一个数据类型

short在java中是占用2个字节，也就是2*8=16bit，16位bit最大能表示就是65535

Map>

解释下这个数据结构

key存储的是当前N的的高16位，即M，然后将这个倒排表中所有高位都是M的其他元素的低16位K汇总，聚集成一个数组，因为有合并和压缩，很显然，这种数据结构能节省不少空间，实际占用的空间随着元素的个数成正比

Map

解释下这个数据结构，key一样的含义，就不说了，因为低16位的值的范围是[0,65535]不重复的，可以通过一个bit数组来表示，这个bit数组的长度是65535，当一个元素经过计算命中了，就将对应下标的bit数组的值改成1

可以看到通过这种方式，占用的空间是固定的，65536/8/1024等于8k

从网上扒来一张图，能很好的说明这两个容器的差异点

以上两个容器，当元素的个数在4096个的时候，达到了平衡，当大于4096个，使用bitMap这个数据结构更加合理，在元素的个数小于4096个时候，使用array这个数据结构更加合理。

这个算法使用的场景是，数组中的元素比较大，同时两个元素之间的间隔很大

词项索引的设计是为了更快的找到对应的词项字典