
本文约2300字,建议阅读8分钟
理解这些,就能明白AI是怎么“长大”的。

一、前向传播:数据怎样在神经网络里“流动”
想象神经网络像一个大迷宫,数据从入口(输入层)进去,经过弯弯曲曲的通道(隐藏层),最后从出口(输出层)出来。
输入层:
就是迷宫的入口,接收原始数据。比如:
图片:每个像素是一个数字,告诉网络这个位置的亮度或颜色。声音:波形图上的每个点是一个数字,记录声音的高低变化。数据需要“打扮”一下才能进迷宫:
归一化:把数据缩放到0到1之间,像把大象装进冰箱前先缩小。编码:把文字变成电脑能懂的数字,比如“猫”变成[0.1, 0.5, 0.3,...]。隐藏层:
迷宫里最复杂的部分,有很多“房间”(神经元)。
每个神经元做三件事:
收集信息:把前面所有神经元的输出加起来,像收集情报。加权求和:给每个信息乘一个“重要系数”(权重),再加一个“基准值”(偏置),公式是:总和=(输入1×权重1)+(输入2×权重2)+...+偏置。激活函数:给总和“变形”,让网络能学复杂东西:ReLU:把负数变0,正数不变,像“剪掉”负值。Sigmoid:把数压到0到1之间,像概率。Tanh:把数压到-1到1之间,像“放大缩小”。输出层:
迷宫的出口,给出最终答案。
分类任务:用Softmax,把数字变成概率,比如“这张图80%是猫,20%是狗”。回归任务:直接输出数字,比如“预测房价是120万”。举个栗子:
输入一张猫的图片→ 卷积层找边缘 → 池化层缩小图片 → 再卷积层找猫耳朵 → 全连接层判断“是猫”。
二、后向传播:网络怎样“自我学习”
前向传播是“做题”,后向传播是“改错”。
计算“错题分”(损失函数):
均方误差(MSE):预测值和真实值的平均差距,适合回归任务。交叉熵损失:预测概率和真实标签的差距,适合分类任务。找“错题原因”(梯度计算):
用链式法则,像剥洋葱一样层层找原因。
从输出层开始,问:“这个结果错了,是因为哪个参数没调好?”
反向传播误差,告诉每个神经元“你该改多少”。
改“错题”(参数更新):
用优化算法,比如梯度下降:
想象在山顶放小球,小球沿着最陡的路(梯度)滚下山,直到找到最低点(最优解)。学习率:小球滚的速度,太大可能跳过最低点,太小下得慢。常用优化器:
SGD:基础款,但容易卡在沟里。Adam:结合动量和历史信息,像自动驾驶调整方向。RMSProp:平衡历史梯度,适合复杂地形。三、训练循环:像教孩子反复练习
准备数据:分训练集(练习题)、验证集(模拟考)、测试集(期末考)。
小批量学习:把数据分成小份(batch),像一次做10道题,改完再做10道。
重复四步:
前向传播:做题,算预测值。算损失:对答案,看错多少。后向传播:改错,找原因。更新参数:调整知识,记住正确解法。直到考好:达到预设次数或精度要求。
训练小技巧:
学习率衰减:开始学快点,后来学慢点,像先快跑再散步。正则化:L2正则像“别偏科”,Dropout像“随机请假”,防止死记硬背。早停法:模拟考成绩不再进步就停,防止过拟合。四、实际应用:神经网络能干啥?
计算机视觉:
图像分类:ResNet能认上千种东西。目标检测:YOLO能找到图里的所有物体。人脸识别:刷脸支付、手机解锁。自然语言处理:
机器翻译:Transformer让翻译更流畅。文本分类:BERT能判断邮件是不是垃圾。语音合成:WaveNet能生成像真人的声音。强化学习:
游戏AI:AlphaGo打败人类棋手。机器人控制:让机器人学走路、抓东西。挑战:
过拟合:只会做练习题,考试不会→ 多做题、正则化。欠拟合:连练习题都做不好→ 加深网络、换老师。梯度消失/爆炸:网络太深,信号传不下去 → 残差连接、梯度裁剪。数据不平衡:有些题太少→ 复制题、加重错题分。五、未来趋势:神经网络会变得更牛吗?
模型更深:ResNet-152有上百层,像超级高楼。
自动化设计:神经网络自己设计自己,像AI建筑师。
训练更快:用TPU/GPU加速,像用超级计算机做题。
交叉领域:
量子神经网络:结合量子力学,可能更快。脑机接口:用神经网络读脑电波,控制机器。硬件升级:
专用芯片:TPU、NPU,专门做神经网络计算。神经拟态芯片:模仿人脑结构,可能更高效。前向传播和后向传播就像神经网络的“消化系统”和“免疫系统”,一个负责处理信息,一个负责自我修复。理解这些,就能明白AI是怎么“长大”的。