VIT中的cls_token是如何获取图片的类别信息的?
VIT中的cls_token是通过Transformer的自注意力机制来学习图片的类别信息的。Transformer的自注意力机制可以让每个输入向量(包括cls_token和patch嵌入向量)与其他输入向量进行交互,从而获得全局的上下文信息。这样,cls_token就可以根据图片中所有patch的特征来更新自己的特征,从而反映图片的整体语义信息。在训练过程中,cls_token对应的特征向量会被送入一个分类头(一个全连接层),用于预测图片的类别。通过优化分类损失函数,cls_token就可以不断调整自己的特征向量,使其更能区分不同类别的图片