wordpress用户链接焦作整站优化

张小明 2026/1/8 0:40:47
wordpress用户链接,焦作整站优化,域名 备案 网站,网站管理助手4.0教程1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题#xff1a;Pasted image 20251110104620现在假设这就是我们的网络的损失图像#xff0c;我们通过一次次迭代#xff0c;让损失下降到最低点。这里展开两个问题#xff1a;#xff08;…1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题Pasted image 20251110104620现在假设这就是我们的网络的损失图像我们通过一次次迭代让损失下降到最低点。这里展开两个问题1为什么迭代过程会让损失上下震荡因为每个批次的样本不可能完全相同不同的特征倾向会指引参数向不同的方向更新。甚至如果一个批次中大多是噪声反而会让参数反向更新增加损失。就像猫狗分类中一个批次可能白猫多一些一个批次可能橘猫多一些而还有一些批次甚至有和狗长得很像的猫这都会影响该次迭代中的学习效果从而影响参数更新而这前后的不同就会让损失“震荡”。2为什么不改变学习率震荡也会越来越小因为在收敛的过程中损失函数变平坦梯度变小更新步长随之减小。同时样本间的梯度差异噪声也随之变小使震荡幅度下降。来看一下参数更新公式参数参数学习率梯度在学习率不变的情况下梯度越来越小了自然更新量就会变小影响损失的变化量也会变小。依旧用下山举例就像越靠近山谷底部地面越平坦即使走偏一步你也走不上多高的坡自然“来回晃动”的幅度越来越小。但这只是理想情况如果学习率设置不当就会出现这中情况你快到谷底了却还在大步流星根本刹不住车一脚又上了另一座山。你走得太慢了甚至可能在谷底附近的浅坑里转圈圈迟迟到不了真正的低点而且说到底震荡现象依然存在只是在收敛中随着整体移动量变小而没那么明显了如何解决这种情况又不影响正常收敛呢1.2 解决震荡的直接方法通过上面一部分我们现在已经知道了出现震荡的本质原因是批次训练中样本的差异导致的单次迭代的结果差异。那么你可能已经猜到了一个解决这个问题的最直接的方法增加批次样本量没错只要我们增加批次样本量模型一次学习更多的样本自然就学到了更多的特征分布出现“噪声集中”的几率也会变少。就像刚刚的猫狗分类里原来模型看完白猫就学白猫然后看橘猫学橘猫之后再看“狗猫”学“狗猫”就像对什么都很好奇的小孩每遇到新的一批样本都要调整自己对猫的认知就是一次震荡。现在我把黑白红蓝猫一次让模型看完模型就知道这些颜色的猫都是猫了就像见识广了的成年人遇到新样本发现其实里面的特征自己之前已经见过了自然不会有那么多的震荡。可是这样就又出现新问题了在本周第一部分里我们就已经论述了选择Mini-batch梯度下降是成本和性能的权衡考虑如果不计其他因素地增加批次样本那不就是批次梯度下降即一次就使用所有样本来训练吗这会带来显存暴涨单步计算量巨增训练速度不一定更快大 batch 收敛容易“卡平坦鞍点”Pasted image 20251110125009因此Batch 不是越大越好而是追求成本与梯度稳定之间的平衡。而这也引出了一个核心动机我们希望在小 batch 的成本下获得“大 batch 才有的稳定梯度效果”。这正是 Momentum 要解决的。1.3 Momentum 梯度下降法我们已经通过气温的例子学习了指数加权平均的概念。回忆一下气温的例子每天的气温都有波动直接看“当天温度”得到的曲线会忽高忽低、不够平滑就像“震荡”。但如果对气温做 EMA今天的气温占 70%昨天占 21%前天占 6%…那得到的温度曲线就会 更平滑、更稳定、更能代表真实趋势。再看看我们现在要解决的震荡问题它的核心在于每次更新只依赖该批次样本计算的梯度。现在的更新方式是不是就相当于“当天温度”那是不是同理只要我们对梯度进行EMA,让一次迭代不只依赖本次样本计算的梯度而是多批次样本梯度的指数加权平均是不是就相当于变相地增加了批次样本量我们再换个角度加深一下理解再次回看这副图先强调一下真实的图像和方向代表的信息要远比图里的复杂的多我们只是简化来帮助理解。Pasted image 20251110133009就像图里画的一样我们抽出其中两次迭代并假定他们所代表的特征。这样如果第二次迭代使用的是EMA梯度那它就得到了更平衡更指向核心特征的信息。就像把每个人自己独特的观点综合考量而每个人都赞同的观点那大概是对的就大力采纳。而这就是Momentum 梯度下降法的核心观点对多次计算的梯度做EMA,用EMA来更新参数。如果梯度方向总是在某个方向上保持一致那我们就应该越走越快。如果梯度方向来回变化就不要轻易被改变。其公式如下记参数为梯度为动量项为动量系数为学习率为则其中相当于累积了之前多次梯度的“指数加权平均”当梯度方向稳定时会越来越大加快下降速度。当梯度方向来回变化时会相互抵消减少震荡。这样我们使用Momentum 梯度下降法,用指数加权平均后的梯度更新参数既增加了核心特征上的收敛速度又缓解了个性化特征带来的震荡现象。2.“人话版”总结概念 原理 比喻梯度下降中的震荡 每个批次样本不同导致每次迭代的梯度方向不一致参数更新“来回晃动”。 就像走山路有时被小石头绊偏走两步又回到原路来回摇摆。学习率不变时震荡减小 随着收敛损失函数变平坦梯度变小更新步长减小自然震荡幅度下降。 越靠近山谷底部地面平坦即使走偏也不会翻到对面山坡。增大批次解决震荡直接方法 一次学习更多样本梯度更稳定噪声影响减小。 小孩学猫时只看一种颜色的猫会不断调整认知一次看多种颜色的猫就稳了。Momentum 梯度下降法 对多次迭代的梯度做指数加权平均EMA用EMA更新参数稳定方向加速震荡方向抵消。 就像综合多个人的意见大多数人一致的方向就加速采纳意见分歧的方向就减缓。Momentum 梯度下降法公式EMA累积前几次梯度相当于“记住过去的方向”走路更稳、更快。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站开发ppt方案模板台州企业网站排名优化

AOP(面向切面编程)是 Spring 核心特性之一,Spring Boot 对 AOP 做了轻量化封装,无需复杂配置即可快速实现日志记录、性能监控、权限校验、事务管理等横切逻辑,大幅提升代码复用性和可维护性。一、核心概念(…

张小明 2026/1/1 13:21:19 网站建设

烟台网站排名优化太原网站建设详细策划

移动机器人路径规划是机器人学的一个重要研究领域。 它要求机器人依据某个或某些优化原则(如最小能量消耗、最 短行走路线、最短行走时间等),在其工作空间中找到一条从 起始状态到目标状态能避开障碍物的最优路径。 机器人路径规划问题可以建模为一个有约束的优化问 题,都要完…

张小明 2026/1/7 13:15:41 网站建设

买的网站可做360广告联盟吗做网站多久能盈利

1. 基于YOLOv8-DynamicHGNetV2的飞机驾驶舱控制元件识别与状态检测 ✨ 在现代航空领域,飞行安全是首要考虑因素,而飞机驾驶舱内的控制元件状态监测对于确保飞行安全至关重要。随着计算机视觉技术的快速发展,利用深度学习方法实现自动化、高精…

张小明 2026/1/1 6:42:13 网站建设

用wordpress建站一个人可以吗企业直播解决方案

目录已开发项目效果实现截图开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!已开发项目效果实现截图 同行可拿货,招校园代理 python基于协同过滤算法的体育商城商品推荐系统_t81xg–论文_…

张小明 2026/1/1 6:42:11 网站建设

自媒体横行还有做网站东莞网络推广优化排名

“PHP 是动态类型语言”——这一简短陈述背后,蕴含着类型系统、运行时行为、语言设计哲学与工程实践的复杂交织。对其进行“庖丁解牛”,需从 类型系统的本质、动态性的表现、与静态语言的对比、运行时机制(Zend Engine)、对开发的…

张小明 2026/1/2 9:51:01 网站建设

精品网站建设哪家公司服务好网页设计入门首先要学什么

WPF图形效果与模板应用全解析 1. 位图效果(Bitmap Effects)简介 在WPF(Windows Presentation Foundation)的视觉体系中,位图效果是最后一块重要拼图。每个 UIElement 都具备 BitmapEffect 属性,借助该属性能够为元素增添各类特殊的类似着色器的效果。以下是几种常见…

张小明 2026/1/2 11:04:40 网站建设