深度学习中backbone、head、neck等概念
总体来说,整个神经网络可以理解为三个部分的组合:Backbone提取原始数据的特征,Neck融合特征,Head进行分类或回归使得数据更加准确。每个部分的设计都需要根据具体任务需求来进行,以获得最佳性能。
1.backbone
翻译为主干网络的意思,既然说是主干网络,就代表其是网络的一部分。这个主干网络大多时候指的是提取特征的网络,其作用就是提取图片中的信息,生成特征图feature map,供后面的网络使用。这些网络经常使用的是ResNet、VGG、MobileNet等,而不是我们自己设计的网络,因为这些网络已经证明了在分类等问题上的特征提取能力是很强的。在用这些网络作为backbone的时候,都是直接加载官方已经训练好的模型参数,后面接着我们自己的网络。让网络的这两个部分同时进行训练,因为加载的backbone模型已经具有提取特征的能力了,在我们的训练过程中,会对他进行微调,使得其更适合于我们自己的任务。
- 在神经网络中,尤其是CV领域,一般先对图像进行特征提取,生成特征图feature map,这一部分是整个CV任务的根基,因为后续的下游任务都是基于提取出来的图像特征去做文章(比如分类、生成等)。
- backbone用于前端提取图片信息,供后面的网络使用。因为这些backbone的特征提取能力是很强,并且可以加载官方在大型数据集(Pascal、Imagenet)上训练好的模型参数,然后接自己的网络,进行微调就可以。
2.head
head是获取网络输出内容的网络,利用之前提取的特征,head利用这些特征,做出预测。
Head是网络结构的顶部部分,它通常包括全连接层、softmax层等线性分类器层,用于将特征向量进行分类或回归等任务。Head的设计通常根据具体的任务需求来进行,例如,如果需要完成二分类任务,那么Head可能只需要一个sigmoid层即可;如果需要进行分类,那么Head则需要多个softmax层等。
3.neck
neck是放在backbone和head之间的,是为了更好的利用backbone提取的特征,可以理解为对backbone生成的特征图做进一步处理,使得head能够更好的做下游任务。
Neck位于Backbone和Head之间,通常用于将两者之间的特征相互融合。Neck通常是由分类与回归之类的模块组成,它也可以是卷积层、池化层等。Neck有时也被称为特征金字塔处理(Feature Pyramid Network)。
4.bottleneck
bottleneck是瓶颈的意思,通常指的是网网络输入的数据维度和输出的维度不同,输出的维度比输入的小了许多,就像脖子一样,变细了。经常设置的参数 bottle_num=256,指的是网络输出的数据的维度是256 ,可是输入进来的可能是1024维度的。
5.GAP
在设计的网络中经常能够看到gap这个层,我之前不知道是干啥的,后了解了,就是Global Average Pool全局平均池化,就是将某个通道的特征取平均值,经常使用AdaptativeAvgpoold,在pytorch中,这个代表自适应性全局平均池化,说人话就是将某个通道的特征取平均值。
6.Embedding
深度学习方法都是利用使用线性和非线性转换对复杂的数据进行自动特征抽取,并将特征表示为“向量”(vector),这一过程一般也称为“嵌入”(embedding)
7.downstream task
用于预训练的任务被称为前置/代理任务(pretext task),用于微调的任务被称为下游任务
8.temperature parameters
在论文中经常能看到这个温度参数的身影,他可以起到平滑softmax输出结果的作用,举例子如下:
import torch
x = torch.tensor([1.0,2.0,3.0])
y = torch.softmax(x,0)
print(y)
x1 = x / 2 # beta 为2
y = torch.softmax(x1,0)
print(y)
x2 = x/0.5 # beta 为0.5
y = torch.softmax(x2,0)
print(y)
#输出结果如下:
tensor([0.0900, 0.2447, 0.6652])
tensor([0.1863, 0.3072, 0.5065])
tensor([0.0159, 0.1173, 0.8668])
当beta>1的时候,可以将输出结果变得平滑,当beta<1的时候,可以让输出结果变得差异更大一下,更尖锐一些。如果beta比较大,则分类的crossentropy损失会很大,可以在不同的迭代次数里,使用不同的beta数值,有点类似于学习率的效果。
9.Warm up
Warm up(热身)指的是用一个小的学习率先训练几个epoch,这是因为网络的参数是随机初始化的,一开始就采用较大的学习率容易数值不稳定。