用手机搭建自己的网站商丘建设厅网站首页

张小明 2026/1/5 9:47:50
用手机搭建自己的网站,商丘建设厅网站首页,秦皇岛网站建设价格,网站 免费 认证MIT最新发现#xff1a;这十年#xff0c;算法进步被高估了 机器之心 2025年12月11日 10:46 在过去十年中#xff0c;AI 的进步主要由两股紧密相关的力量推动#xff1a;迅速增长的计算预算#xff0c;以及算法创新。 相比之下#xff0c;计算量的增长较容易衡量#x…MIT最新发现这十年算法进步被高估了机器之心2025年12月11日 10:46在过去十年中AI 的进步主要由两股紧密相关的力量推动迅速增长的计算预算以及算法创新。相比之下计算量的增长较容易衡量但我们仍然缺乏对算法进步的清晰量化究竟哪些变化带来了效率提升这些提升的幅度有多大以及它们在不同计算规模下是否依然成立。2024 年有研究通过分析数百个语言模型他们估计在过去十年里算法进步在所谓的有效计算量effective compute方面贡献了超过 4 个数量级的提升而根据对历史 AI 文献的分析计算规模本身增长了 7 个数量级。具体而言所有算法创新加起来使模型的效率提高了大约 22,000 倍这意味着在理论上可以用少得多的浮点运算次数FLOPs达到相同的性能水平。然而我们仍然缺乏对这类进步的精确分解而关于算法进步来源的许多关键问题仍未得到充分研究。例如各种算法改进之间是如何相互作用的算法进步是由一系列小改动累积而成还是由少数几次重大突破推动的算法改进是像摩尔定律那样平滑持续地发展还是呈现间断平衡即长时间停滞 突然大跳跃的模式为回答这些问题来自 MIT 等机构的研究者采用了三种互补的方法对语言模型中的重要算法改进进行消融实验开展 scaling 实验以测量不同架构在最优 scaling 行为上的差异对数据与参数 scaling 转换进行理论分析。论文地址https://arxiv.org/pdf/2511.21622论文标题On the Origin of Algorithmic Progress in AI最终得到三条结论1经过实验评估的大多数算法创新都只带来了小幅的、与规模无关的效率提升总体计算效率提升不到 10 倍并且在推算到 2025 年的计算能力极限2 × 10²³ FLOPs时这些提升仅占总改进的不到 10%。这表明与规模无关的算法进步在整体效率提升中所占的份额很小2本文发现有两项强烈依赖规模scale-dependent的算法创新从 LSTM 到 Transformer以及从 Kaplan 到 Chinchilla 。当将其外推到 2025 年的计算前沿时这两项创新合计占据了全部效率提升的 91%。这意味着对于小规模模型而言算法进步的幅度比此前认为的要小几个数量级。3在规模依赖型创新的情况下效率提升不仅需要持续的计算投入而且算法进步的速度还强烈依赖于你选择的参考算法。换句话说相对于某一个基线算法连续模型之间的进步率可能看起来是指数级的但相对于另外一个基线算法它却可能完全为零。总体来看这些发现表明算法进步可能本质上就是依赖规模的要真正体现其效益需要不断增长计算规模。同时这也意味着算法进步对大模型开发者的益处远大于对小规模参与者的益处。规模不变型算法本文首先通过大量的消融实验来分析单个算法的影响从而绘制出算法改进的细粒度图景。此外本文还尝试估计了多项算法组合后的联合效果。本文发现原始论文即提出某项算法改进的那篇论文所声称的效率提升往往远高于后续文献给出的估计也高于本文的实验结果。规模不变型算法的效率提升既小且分布高度不均实验中发现从 LSTM 切换到 Modern Transformer 的总效率提升为 6.28×而从 LSTM 切换到 Retro Transformer 的效率提升为 4.69×。这比 Ho 等人2024的估计他们认为 LSTM→Transformer 的提升约 60×小得多。虽然本文确实观察到一些改进例如 Adam 优化器、以及从 post-layernorm 切换到 pre-RMSNorm带来了大约 2× 的效率提升但作者测量的大多数创新带来的提升都很小。有趣的是他们看到一个高度偏斜的效率提升分布尽管所有被消融的创新带来的提升都低于 4×但提升倍数却极不均匀主要集中在少数几项改进上例如 Adam 或 pre-layernorm。从这个角度来看算法进步比之前想象的更加断裂 / 不连续多年小幅改进之后会出现一次较大的算法跃迁。许多改进的效率提升幅度很小这也推动本文开展第二部分实验比较算法变化在不同规模下的影响从而揭示这些变化对神经网络 scaling laws 的作用。依赖于规模的算法前文提到算法改进在小规模模型上带来的收益非常有限。因此自然会产生一个问题在大规模下算法收益会变得更大吗因此本文对不同架构、优化器以及算法创新进行了 scaling 实验以更好地理解它们的效率提升如何随计算规模变化。实验模型主要为 LSTM、Transformer以及两种 Transformer 变体Modern Transformer、Retro Transformer。规模扩展实验从 LSTM 到 Transformer图 4A 展示了 LSTM 与现代 Transformer 在 scaling 上的差异图 4B 展示了现代 Transformer 与 Retro Transformer 的 scaling 差异。Scaling 图表表明神经网络架构的改进并不是规模不变的而是具有随规模增加而回报提升的特性increasing returns to scale。算法进步强烈依赖于算力规模与参考基线算法进步可能主要由算力提升所驱动本文提出一个疑问此前将算法进步与时间挂钩的说法是否其实是由算力投入的持续增长所驱动已有估计表明前沿模型的计算预算正以每年 4.2 倍的速度呈指数增长。因此随着算力预算呈指数级提升算法进步的速率可能更多是受这一规律性的算力扩张所推动而不是源于不断涌现的算法创新。本文发现在 2017–2025 年间几乎所有可解释的算法进步都来自两项规模依赖型的创新从 LSTM 换成 Transformer以及从 Kaplan 换成 Chinchilla 的训练策略。其他所有算法改进加起来只占很小一部分。在总计 21,400 倍相对于 LSTM 模型的性能提升中本文发现 846 倍的提升是通过从 LSTM 模型转向 Kaplan Transformer 模型实现的而近 10 倍的提升则归功于 Chinchilla 调整训练策略。这两项创新共同构成了总相对效率提升的 91%。算法进步的速度取决于你拿谁当对照组如果算法变得更强是不是意味着进步更快其实这完全取决于你选谁来当参照物。换个参照物算法进步的速度立刻就变了。因为有些算法改进是规模依赖型scale-dependent 的在大模型、大算力下提升巨大但在小模型、小算力下几乎没作用。这导致一个有趣现象如果你用 LSTM 当参照Transformer 系列尤其是更大模型会显得算法进步是指数增长的论文测到一年增长率大约 63%非常快但如果你用 Transformer 自己当参照随着规模变大你只看到算法只比以前好 2 倍几乎没增长。也就是说换个对照组算法进步就从指数增长变成增长幅度很少。© THE END
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站集群建设要求商水住房城乡建设网站

当服务行业的预约管理工具还困在 “信息零散” 与 “操作割裂” 的低效框架里时,这款服务预约 APP 的界面设计,用 “聚焦核心 场景联动” 的逻辑,给出了 “高效管理与轻量体验共生” 的新解法。作为深耕商业服务 UX 领域的专业团队&#xff…

张小明 2026/1/2 2:15:56 网站建设

郑州做网站上海建设协会网站

0 选题推荐 - 大数据篇 毕业设计是大家学习生涯的最重要的里程碑,它不仅是对四年所学知识的综合运用,更是展示个人技术能力和创新思维的重要过程。选择一个合适的毕业设计题目至关重要,它应该既能体现你的专业能力,又能满足实际应…

张小明 2026/1/2 2:15:57 网站建设

公司网站 数据库福州医社保增减员在什么网站做

管理上有时会有需要,将字段上不相关的内容放入同一张报表。sql对于这种情况如何处理?举例如下,A表和B表通过现有字段是无法做表连接,实现下述效果的。A业务表ta,字段c1原料、c2金额、c3税额B业务表tb,字段c…

张小明 2026/1/2 2:15:55 网站建设

海口网站建设的开发方案赣州九一人才网手机版

文章目录总体思路第一阶段:宏观认知——绘制战略地图第二阶段:核心原理深入——理解设计哲学第三阶段:微观实现剖析——洞察精妙细节第四阶段:实践与验证——完成学习闭环总结:从框架到自由面对一个陌生的开源 AI 项目…

张小明 2026/1/2 2:15:54 网站建设

网站开发需要做什么工作南宁网站seo顾问

jQuery UI Tooltip(工具提示框)实例 Tooltip 是 jQuery UI 中用于替换浏览器原生 title 提示的组件,支持 HTML 内容、动画、自定义位置、跟踪鼠标、AJAX 加载等。常用于表单验证提示、图片说明、链接帮助、图标解释等场景,比原生…

张小明 2026/1/2 2:15:55 网站建设

如何把网站提交给百度国内html5网站

功能开关系统深度解析:从基础架构到实战应用全攻略 【免费下载链接】unleash unleash - 这是一个开源的持续部署和持续交付平台,用于自动化部署、测试、回滚等流程。适用于团队协同工作、持续集成、持续交付等场景。 项目地址: https://gitcode.com/Gi…

张小明 2026/1/2 2:15:58 网站建设