Elasticsearch的倒排索引理解

Elasticsearch的倒排索引
1、把原文档进行分词,并找出单词所在文档编号


2、分词后的单词,在不同文档中出现的次数(TF)


3、分词后的单词,在不同文档中出的次数(TF)、位置(POS)


4、名词解释
单词ID:记录每个单词的单词编号

单词:对应的单词

文档频率:代表文档集合中有多少个文档包含某个单词

倒排列表:包含单词ID及其它必要的信息

DOicID:单词出现的文档id

TF:单词在某个文档中出现的次数

POS:单词在文档中出现的位置

5、综合说明
以单词"大飞哥"为例,其单词编号为6,文档频率为2,代表整个文档集合中有2个文档包含这个单词。

对应的倒排列表为{(3,1,<3>),(4,1,<3>)},含义是在文档3、文档4中出现过这个单词,在每个文档中出现过1次。单词"大飞哥"在文档3的POS是3,即文档的第3个单词是"大飞哥"。在文档4的POS是3,即文档的第3个单词是"大飞哥"。

这个倒排索引已经是一个非常完备的索引系统,实际搜索系统的索引结构基本如此