Jaccard 评价指标的简介与图示
Jaccard 评价指标
Jaccard指标,也称为Jaccard相似系数或Jaccard相似度,是一种用于比较两个样本集合相似性的统计指标。它定义为两个集合的交集除以它们的并集。
公式如下:
J ( C 1 , C 2 ) = ∣ C 1 ∩ C 2 ∣ ∣ C 1 ∪ C 2 ∣ J(C_1,C_2) = \frac{|C_1∩C_2|}{|C_1∪C_2|} J(C1,C2)=∣C1∪C2∣∣C1∩C2∣
图示如下:

其中, C 1 C_1 C1和 C 2 C_2 C2分别表示两个集合, ∣ C 1 ∣ |C_1| ∣C1∣表示集合 C 1 C_1 C1的元素个数, ∣ C 2 ∣ |C_2| ∣C2∣表示集合 C 2 C_2 C2的元素个数, ∣ C 1 ∩ C 2 ∣ |C_1∩C_2| ∣C1∩C2∣表示集合 C 1 C_1 C1和集合 C 2 C_2 C2的交集元素个数, ∣ C 1 ∪ C 2 ∣ |C_1∪C_2| ∣C1∪C2∣表示集合 C 1 C_1 C1和集合 C 2 C_2 C2的并集元素个数。
Jaccard指标的取值范围在0到1之间,值越接近1表示两个集合越相似,值越接近0表示两个集合越不相似。在机器学习和信息检索等领域中,Jaccard指标常被用来评估两个集合之间的相似度,例如评估文本分类、聚类等任务的性能。