GAGE论文复现(一)论文精读
基于图嵌入的协同推荐系统群体托攻击检测方法

3.1 用户关系图的构建
3.1.1 计算用户在每个项目时间间隔内的评分松紧度
- 提取评分、用户、时间戳
- 项目p的时间序列是指一组用户对项目p进行评分的时间顺序
- 根据攻击组的时间集中特性,利用滑动时间窗将每个项目的时间序列划分为不同的区间。本文将滑动时间窗口的大小设置为30天。
- 项目时间间隔内用户数量与项目时间序列内用户总数的比值越大,用户在时间间隔内的评分时间分布越密集。(Def1 项目时间间隔内的评分时间分布密度)
- 此外,如果一个项目在项目时间间隔内拥有的不同等级数较少,则该时间间隔内的评分分布较为集中,这也反映了用户在该时间间隔内的集中程度。
- Def2 项目时间间隔内评分分布密度(不太理解以下公式)

- Def3 项目时间间隔内用户评分紧密程度:Def1*Def2

3.1.2 构建用户关系图的算法
- 这种用户间的社交图可以由用户偏好相关关系或明确的社交关系或隐式的用户相关关系来建立
- 每个节点代表一个用户,每条边代表两个用户之间的关系。每条边都可以被赋予一个权重(有权图)来反映两个用户之间的关联强度。用户之间的关系可以根据评分数据库中用户的共评项、评级和评分时间戳来挖掘。
- Def4 用户关联度:用户u与v的关联度是指用户u与v在所属的所有项目时间区间内的最大评分紧密度

- 加权无向图方法构造用户关系图,将用户作为节点,用户之间的关系作为边,用户之间的关联度作为边的权值

3.2 候选组生成
- 采用Node2vec模型学习用户关系图中节点的低维向量表示,得到用户特征矩阵
- 使用kmeans++聚类算法获得候选组(通过限制每个组的大小来获得最终的候选组)阈值

3.3 攻击群检测
- 提出了两个指标来衡量群体托行为,并将其与另外两个现有指标结合,计算算法3得到的候选群体的可疑程度
- 提出了一种基于分层聚类的攻击群体检测方法
四个指标
- Def5 组评分偏差之和(SGRD)
- Def6 群组用户平均评分集中度(GUARC)
- Def7 时间窗可疑度平均值(MTWSD)
- Def8 组早期评分率(GERR)
群体可疑度 group suspicious degree (GSD)

