ResNet 为什么引入残差网络? 我们可能会想到网络越深拟合越好,然而并非如此,很深的网络很容易导致网络退化问题,增加shortcut mapping有利于梯度传播。加入直连部分,可以使得梯度从后向前传播,网络扩展到上千层。 warm up 用一个较大的模型训练时,采用较小的学习率(小于一般状况下10倍的学习率)预热模型一个epoch步,随后增大学习率。 网络 开始迅速降低分辨率四阶段残差结构池化 + RC输出