作者：李媛媛

本文约2300字，建议阅读8分钟

理解这些，就能明白AI是怎么“长大”的。

一、前向传播：数据怎样在神经网络里“流动”

想象神经网络像一个大迷宫，数据从入口（输入层）进去，经过弯弯曲曲的通道（隐藏层），最后从出口（输出层）出来。

输入层：

就是迷宫的入口，接收原始数据。比如：

图片：每个像素是一个数字，告诉网络这个位置的亮度或颜色。
声音：波形图上的每个点是一个数字，记录声音的高低变化。

数据需要“打扮”一下才能进迷宫：

归一化：把数据缩放到0到1之间，像把大象装进冰箱前先缩小。
编码：把文字变成电脑能懂的数字，比如“猫”变成[0.1, 0.5, 0.3,...]。

隐藏层：

迷宫里最复杂的部分，有很多“房间”（神经元）。

每个神经元做三件事：

收集信息：把前面所有神经元的输出加起来，像收集情报。
加权求和：给每个信息乘一个“重要系数”（权重），再加一个“基准值”（偏置），公式是：总和=(输入1×权重1)+(输入2×权重2)+...+偏置。
激活函数：给总和“变形”，让网络能学复杂东西：

ReLU：把负数变0，正数不变，像“剪掉”负值。

Sigmoid：把数压到0到1之间，像概率。

Tanh：把数压到-1到1之间，像“放大缩小”。

输出层：

迷宫的出口，给出最终答案。

分类任务：用Softmax，把数字变成概率，比如“这张图80%是猫，20%是狗”。
回归任务：直接输出数字，比如“预测房价是120万”。

举个栗子：

输入一张猫的图片→ 卷积层找边缘 → 池化层缩小图片 → 再卷积层找猫耳朵 → 全连接层判断“是猫”。

二、后向传播：网络怎样“自我学习”

前向传播是“做题”，后向传播是“改错”。

计算“错题分”（损失函数）：

均方误差（MSE）：预测值和真实值的平均差距，适合回归任务。
交叉熵损失：预测概率和真实标签的差距，适合分类任务。

找“错题原因”（梯度计算）：

用链式法则，像剥洋葱一样层层找原因。

从输出层开始，问：“这个结果错了，是因为哪个参数没调好？”

反向传播误差，告诉每个神经元“你该改多少”。

改“错题”（参数更新）：

用优化算法，比如梯度下降：

想象在山顶放小球，小球沿着最陡的路（梯度）滚下山，直到找到最低点（最优解）。
学习率：小球滚的速度，太大可能跳过最低点，太小下得慢。

常用优化器：

SGD：基础款，但容易卡在沟里。
Adam：结合动量和历史信息，像自动驾驶调整方向。
RMSProp：平衡历史梯度，适合复杂地形。

三、训练循环：像教孩子反复练习

准备数据：分训练集（练习题）、验证集（模拟考）、测试集（期末考）。

小批量学习：把数据分成小份（batch），像一次做10道题，改完再做10道。

重复四步：

前向传播：做题，算预测值。
算损失：对答案，看错多少。
后向传播：改错，找原因。
更新参数：调整知识，记住正确解法。

直到考好：达到预设次数或精度要求。

训练小技巧：

学习率衰减：开始学快点，后来学慢点，像先快跑再散步。
正则化：L2正则像“别偏科”，Dropout像“随机请假”，防止死记硬背。
早停法：模拟考成绩不再进步就停，防止过拟合。

四、实际应用：神经网络能干啥？

计算机视觉：

图像分类：ResNet能认上千种东西。
目标检测：YOLO能找到图里的所有物体。
人脸识别：刷脸支付、手机解锁。

自然语言处理：

机器翻译：Transformer让翻译更流畅。
文本分类：BERT能判断邮件是不是垃圾。
语音合成：WaveNet能生成像真人的声音。

强化学习：

游戏AI：AlphaGo打败人类棋手。
机器人控制：让机器人学走路、抓东西。

挑战：

过拟合：只会做练习题，考试不会→ 多做题、正则化。
欠拟合：连练习题都做不好→ 加深网络、换老师。
梯度消失/爆炸：网络太深，信号传不下去 → 残差连接、梯度裁剪。
数据不平衡：有些题太少→ 复制题、加重错题分。

五、未来趋势：神经网络会变得更牛吗？

模型更深：ResNet-152有上百层，像超级高楼。

自动化设计：神经网络自己设计自己，像AI建筑师。

训练更快：用TPU/GPU加速，像用超级计算机做题。

交叉领域：

量子神经网络：结合量子力学，可能更快。
脑机接口：用神经网络读脑电波，控制机器。

硬件升级：

专用芯片：TPU、NPU，专门做神经网络计算。
神经拟态芯片：模仿人脑结构，可能更高效。

前向传播和后向传播就像神经网络的“消化系统”和“免疫系统”，一个负责处理信息，一个负责自我修复。理解这些，就能明白AI是怎么“长大”的。