神经网络由三个核心组件构成:层、激活函数,以及与优化器配合使用的损失函数。层由相互连接的节点(神经元)构成,用于处理数据。激活函数引入非线性,使网络能够建模复杂模式。损失函数量化预测误差,而优化器则调整网络的参数(权重和偏置)以最小化这些误差。这些元素共同构成了神经网络训练和推理的基础。
层是构建模块。输入层接收原始数据(例如,图像的像素值),隐藏层通过加权连接转换数据,而输出层生成预测(例如,分类概率)。层中的每个神经元计算其输入的加权和,加上一个偏置项,然后通过激活函数处理结果。例如,一个用于数字识别的简单网络可能使用一个 784 个节点的输入层(用于 28x28 像素的图像),两个使用 ReLU 激活的隐藏层,以及一个使用 softmax 输出类别概率的 10 个节点的输出层。权重和偏置是学习到的参数,它们决定了信号如何通过网络传播。
损失函数(例如,用于回归的均方误差或用于分类的交叉熵)衡量预测与实际目标之间的偏差程度。优化器(如随机梯度下降或 Adam)使用通过反向传播计算出的梯度来更新权重和偏置。例如,在训练文本分类器时,交叉熵损失比较预测的单词概率与真实标签,而 Adam 调整参数以在迭代过程中减少损失。ReLU 或 sigmoid 等激活函数确保网络能够建模非线性关系——没有它们,网络将退化为线性模型。这些组件在训练期间相互作用:数据前向传播,计算损失,梯度反向传播,优化器迭代地提高性能。