Jaccard 评价指标的简介与图示

Jaccard 评价指标

Jaccard指标,也称为Jaccard相似系数或Jaccard相似度,是一种用于比较两个样本集合相似性的统计指标。它定义为两个集合的交集除以它们的并集。

公式如下:

J ( C 1 , C 2 ) = ∣ C 1 ∩ C 2 ∣ ∣ C 1 ∪ C 2 ∣ J(C_1,C_2) = \frac{|C_1∩C_2|}{|C_1∪C_2|} J(C1,C2)=C1C2C1C2

图示如下:

在这里插入图片描述

其中, C 1 C_1 C1 C 2 C_2 C2分别表示两个集合, ∣ C 1 ∣ |C_1| C1表示集合 C 1 C_1 C1的元素个数, ∣ C 2 ∣ |C_2| C2表示集合 C 2 C_2 C2的元素个数, ∣ C 1 ∩ C 2 ∣ |C_1∩C_2| C1C2表示集合 C 1 C_1 C1和集合 C 2 C_2 C2的交集元素个数, ∣ C 1 ∪ C 2 ∣ |C_1∪C_2| C1C2表示集合 C 1 C_1 C1和集合 C 2 C_2 C2的并集元素个数。

Jaccard指标的取值范围在0到1之间,值越接近1表示两个集合越相似,值越接近0表示两个集合越不相似。在机器学习和信息检索等领域中,Jaccard指标常被用来评估两个集合之间的相似度,例如评估文本分类、聚类等任务的性能。