AI 生成结果

多选题 (中等)

在深度神经网络的训练过程中,以下哪些策略能有效缓解「梯度消失」(Vanishing Gradients)问题?(多选)

A. 使用 ReLU 激活函数及其变体(如 Leaky ReLU)
B. 采用批量归一化 (Batch Normalization)
C. 引入残差连接 (Residual Connections)
D. 增大 L2 正则化 (Weight Decay) 的强度

参考答案

A. 使用 ReLU 激活函数及其变体(如 Leaky ReLU)

B. 采用批量归一化 (Batch Normalization)

C. 引入残差连接 (Residual Connections)

AI 思维链 (Explanation)

本题考察缓解梯度消失问题的核心技术。梯度消失是指在深层网络中,梯度在反向传播过程中逐层相乘导致其变得非常小,使浅层网络的参数几乎无法更新。

  • A. 使用 ReLU...: 正确。ReLU 在正区间的导数恒为1,不像 Sigmoid/Tanh 在饱和区导数接近0。这使得梯度能够更有效地在层间传递,是缓解梯度消失的关键手段。
  • B. 采用批量归一化...: 正确。Batch Normalization 通过将每层激活的分布标准化到均值为0、方差为1的范围,使得激活值落在激活函数(尤其是S型函数)的非饱和区,从而保证了梯度的有效性。
  • C. 引入残差连接...: 正确。残差连接 (ResNet) 提供了“快捷通道”(shortcut connection),允许梯度直接从深层反向传播到浅层,绕过了可能导致梯度衰减的中间层,极大地缓解了梯度消失问题。
  • D. 增大 L2 正则化...: 错误。L2 正则化 (权重衰减) 是一种防止过拟合的技术,它通过惩罚较大的权重来使模型更平滑,但它并不直接解决梯度消失问题。