建设网站空间合同事件营销ppt

张小明 2026/1/14 8:31:40
建设网站空间合同,事件营销ppt,哪家公司做企业网站稳定优惠,wordpress 图片水印Day 8: 优化器与训练技巧 摘要#xff1a;设计好了神经网络架构只是第一步#xff0c;如何让它“学”好则是另一个关键挑战。本文深入探讨深度学习中的优化器演进#xff08;从SGD到AdamW#xff09;、学习率调度策略、关键的归一化技术#xff08;BN、LN、RMSNorm#x…Day 8: 优化器与训练技巧摘要设计好了神经网络架构只是第一步如何让它“学”好则是另一个关键挑战。本文深入探讨深度学习中的优化器演进从SGD到AdamW、学习率调度策略、关键的归一化技术BN、LN、RMSNorm以及防止过拟合的正则化手段。1. 优化器 (Optimizers)优化器的作用是根据计算出的梯度来更新模型的权重以最小化损失函数。1.1 SGD 与 MomentumSGD (Stochastic Gradient Descent)是最基础的优化算法每次只随机抽取一部分样本Batch计算梯度并更新。θ t 1 θ t − η ⋅ ∇ J ( θ t ) \theta_{t1} \theta_t - \eta \cdot \nabla J(\theta_t)θt1​θt​−η⋅∇J(θt​)其中η \etaη是学习率。通俗解释梯度震荡想象你在滑雪下山地形是一个狭长的峡谷左右坡度很陡但沿着峡谷向下的坡度很缓。SGD的困境你站在峡谷一侧SGD只看脚下觉得“左边好陡”于是用力向右冲冲到对面后又觉得“右边好陡”于是用力向左冲。结果就是你在峡谷两壁之间来回“剧烈横跳”震荡大部分力气花在左右移动上沿着峡谷向下前进的速度反而很慢。Momentum的作用引入“动量”模拟惯性。当你左右横跳时惯性会抵消一部分横向的力保留更多纵向沿峡谷走向的速度让你能平滑地滑向谷底。Momentum (动量)为了解决SGD在由于梯度方向震荡导致收敛慢的问题引入了“动量”概念模拟物理中的惯性。v t 1 γ v t η ∇ J ( θ t ) v_{t1} \gamma v_t \eta \nabla J(\theta_t)vt1​γvt​η∇J(θt​)θ t 1 θ t − v t 1 \theta_{t1} \theta_t - v_{t1}θt1​θt​−vt1​动量项γ \gammaγ通常设为 0.9。1.2 Adam (Adaptive Moment Estimation)Adam 结合了 Momentum (一阶动量) 和 RMSProp (二阶动量/自适应学习率) 的优点。它为每个参数计算独立的自适应学习率。一阶动量(均值):m t β 1 m t − 1 ( 1 − β 1 ) g t m_t \beta_1 m_{t-1} (1-\beta_1) g_tmt​β1​mt−1​(1−β1​)gt​二阶动量(方差):v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t \beta_2 v_{t-1} (1-\beta_2) g_t^2vt​β2​vt−1​(1−β2​)gt2​偏差修正:m ^ t m t / ( 1 − β 1 t ) \hat{m}_t m_t / (1-\beta_1^t)m^t​mt​/(1−β1t​),v ^ t v t / ( 1 − β 2 t ) \hat{v}_t v_t / (1-\beta_2^t)v^t​vt​/(1−β2t​)更新:θ t 1 θ t − η m ^ t v ^ t ϵ \theta_{t1} \theta_t - \eta \frac{\hat{m}_t}{\sqrt{\hat{v}_t} \epsilon}θt1​θt​−ηv^t​​ϵm^t​​1.3 AdamWAdamW是目前大模型训练的主流选择。它解决了 Adam 中权重衰减L2正则实现不正确的问题。在 AdamW 中权重衰减Weight Decay直接应用于权重更新步骤而不是混入梯度计算中从而实现了与学习率的解耦。 代码实践PyTorch优化器选择importtorchimporttorch.nnasnnimporttorch.optimasoptim modelnn.Linear(10,2)# 1. SGD with Momentumoptimizer_sgdoptim.SGD(model.parameters(),lr0.01,momentum0.9)# 2. Adamoptimizer_adamoptim.Adam(model.parameters(),lr0.001)# 3. AdamW (推荐用于Transformer/大模型)optimizer_adamwoptim.AdamW(model.parameters(),lr0.001,weight_decay0.01)2. 学习率调度 (Learning Rate Schedulers)恒定的学习率往往无法达到最优解。通常策略是前期Warmup预热以稳定梯度后期Decay衰减以精细收敛。2.1 Warmup在训练初期由于梯度变化剧烈使用较大的学习率容易导致模型不稳定。Warmup 策略是在最初的几步如前5% steps将学习率从 0 线性增加到预设的最大值。2.2 Cosine Annealing (余弦退火)学习率随训练步数按余弦函数曲线下降。相比于阶梯式下降Step Decay余弦退火更加平滑且往往能获得更好的泛化能力。 代码实践Schedulerfromtransformersimportget_cosine_schedule_with_warmup# 假设总步数为 1000预热步数为 100optimizeroptim.AdamW(model.parameters(),lr1e-3)schedulerget_cosine_schedule_with_warmup(optimizer,num_warmup_steps100,num_training_steps1000)# 在训练循环中# optimizer.step()# scheduler.step()3. 归一化技术 (Normalization)归一化旨在解决Internal Covariate Shift (ICS)问题使各层输入的分布保持稳定从而加速收敛并允许使用更大的学习率。通俗解释Internal Covariate Shift把深度网络看作一个“流水线工厂”。第 2 层工人B习惯处理第 1 层工人A传过来的“标准件”。但随着训练进行工人 A 的参数在变传给 B 的产品特性数据分布也在不停地变。工人 B 就不得不一直重新适应 A 的变化导致整个工厂效率极低。归一化BN/LN就像在 A 和 B 之间放了一个“质检员”不管 A 产出什么都强行把它标准化均值0方差1再给 B。这样 B 就能稳定工作了。方法适用场景维度 (Input: N, C, H, W)描述Batch Norm (BN)CNN (CV任务)对 N, H, W 归一化依赖 Batch Size训练/推理行为不同Layer Norm (LN)RNN/Transformer (NLP)对 C, H, W 归一化独立于 Batch Size对序列长度不敏感RMSNormLLM (如 LLaMA)同 LNLN 的简化版去除了均值中心化仅保留缩放计算更高效RMSNorm 公式相比 LayerNormRMSNorm (Root Mean Square Layer Normalization) 省略了减去均值的步骤x ˉ i x i RMS ( x ) g i , where RMS ( x ) 1 n ∑ j 1 n x j 2 ϵ \bar{x}_i \frac{x_i}{\text{RMS}(x)} g_i, \quad \text{where } \text{RMS}(x) \sqrt{\frac{1}{n} \sum_{j1}^n x_j^2 \epsilon}xˉi​RMS(x)xi​​gi​,whereRMS(x)n1​j1∑n​xj2​ϵ​4. 正则化 (Regularization)为了防止模型过拟合在训练集表现好测试集表现差需要引入正则化。4.1 Dropout在训练过程中随机将一部分神经元的输出置为 0。这相当于训练了无数个子网络的集成迫使网络不过分依赖某些特定的特征。类比理解Dropout 的机制与随机森林 (Random Forest)非常相似。训练时每次随机关掉一部分神经元相当于每次都在训练一个不同的“残缺版”子网络。推理时所有神经元全开相当于把这成百上千个子网络的预测结果做了“加权平均”。这种隐式的集成学习 (Ensemble Learning)有效降低了模型的方差提升了泛化能力。注现代大模型训练中为防止破坏特征有时会减少Dropout的使用或仅在特定位置使用。4.2 Weight Decay (L2 正则)在损失函数中加入权重的平方和惩罚项L L d a t a λ ∣ ∣ w ∣ ∣ 2 L L_{data} \lambda ||w||^2LLdata​λ∣∣w∣∣2。这限制了权重的大小防止模型过于复杂。4.3 数据增强 (Data Augmentation)通过对训练数据进行变换如图片的翻转、裁剪、颜色变换文本的掩码、回译等来增加数据多样性是提升模型鲁棒性最直接有效的方法。5. 总结在深度学习训练中“炼丹”技巧往往和模型架构一样重要优化器首选AdamW它是目前 CV 和 NLP 领域的通用选择。学习率配合Warmup Cosine Decay策略能显著提升收敛效果。归一化CNN 用 BNTransformer/RNN 用 LN 或RMSNorm。正则化合理使用 Weight Decay 和 Dropout 防止过拟合。掌握这些组件的原理与搭配是训练高性能模型的基础。参考资料Decoupled Weight Decay Regularization (AdamW Paper)Root Mean Square Layer NormalizationPyTorch Optimization Documentation
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

宜宾建设网站wordpress 用不了矢量

RAG(检索增强生成)系统结合信息检索与大语言模型生成能力,通过外部知识库检索相关信息再生成答案,有效解决大模型知识滞后、产生幻觉等问题。文章详解了RAG系统架构、工作流程,以及文档处理、分块策略、Embedding选型等…

张小明 2026/1/2 2:54:56 网站建设

网站建设要准备什么资料做红酒网站

还在为无法保存喜欢的抖音视频而烦恼吗?douyin-downloader工具帮你轻松解决这个难题!这款专业的抖音内容下载工具支持视频、图集、音乐及直播回放等多种内容类型,让优质内容触手可及。 【免费下载链接】douyin-downloader 项目地址: https…

张小明 2026/1/6 12:59:28 网站建设

学校网站设计论文长沙p2p网站建设

想要创作属于自己的音乐却苦于复杂的软件和昂贵的设备?BeepBox 在线音乐创作工具为你提供了完美的解决方案!作为一款免费的开源工具,BeepBox 让任何人都能轻松上手音乐制作,无需任何专业背景或音乐理论知识。 【免费下载链接】bee…

张小明 2026/1/9 16:22:19 网站建设

服务器可以做几个网站商城网站定制建设价位

rspec-rails调试实战:8个高级技巧深度解析测试失败分析 【免费下载链接】rspec-rails rspec/rspec-rails: 是一个专门为 Rails 应用程序提供的 RSpec 测试框架。适合用于编写 Rails 应用程序的各种测试用例。特点是可以提供针对 Rails 应用程序的特定匹配器和断言方…

张小明 2026/1/9 11:52:48 网站建设

枣庄市庄里水库建设管理处网站域名注册信息怎么查

ncmdumpGUI:3步快速解密网易云音乐ncm文件的终极指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI ncmdumpGUI是一款专为网易云音乐用户设计的免…

张小明 2026/1/2 2:54:57 网站建设

开发网站公司交税国贸做网站公司

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个对比工具页面,左侧展示传统手工编写CSS换行方案的过程(需要尝试多种属性组合),右侧展示使用AI智能生成的优化方案。要求&…

张小明 2026/1/6 1:17:59 网站建设