Elasticsearch的倒排索引理解
Elasticsearch的倒排索引
1、把原文档进行分词,并找出单词所在文档编号


2、分词后的单词,在不同文档中出现的次数(TF)


3、分词后的单词,在不同文档中出的次数(TF)、位置(POS)

4、名词解释
单词ID:记录每个单词的单词编号
单词:对应的单词
文档频率:代表文档集合中有多少个文档包含某个单词
倒排列表:包含单词ID及其它必要的信息
DOicID:单词出现的文档id
TF:单词在某个文档中出现的次数
POS:单词在文档中出现的位置
5、综合说明
以单词"大飞哥"为例,其单词编号为6,文档频率为2,代表整个文档集合中有2个文档包含这个单词。
对应的倒排列表为{(3,1,<3>),(4,1,<3>)},含义是在文档3、文档4中出现过这个单词,在每个文档中出现过1次。单词"大飞哥"在文档3的POS是3,即文档的第3个单词是"大飞哥"。在文档4的POS是3,即文档的第3个单词是"大飞哥"。
这个倒排索引已经是一个非常完备的索引系统,实际搜索系统的索引结构基本如此