ResNet

在这里插入图片描述

为什么引入残差网络?

我们可能会想到网络越深拟合越好,然而并非如此,很深的网络很容易导致网络退化问题,增加shortcut mapping有利于梯度传播。加入直连部分,可以使得梯度从后向前传播,网络扩展到上千层。

warm up

用一个较大的模型训练时,采用较小的学习率(小于一般状况下10倍的学习率)预热模型一个epoch步,随后增大学习率。

网络

  • 开始迅速降低分辨率
  • 四阶段残差结构
  • 池化 + RC输出
    在这里插入图片描述