酒泉网站建设与制作帝国+只做网站地图-吉安市网站建设公司-Seo优化

酒泉网站建设与制作,帝国+只做网站地图,2345网址导航app下载2021,投资公司属于什么行业2025 年是 AI 领域的分水岭。我们见证了 DeepSeek R1 开启的强化学习#xff08;RLVR#xff09;风暴#xff0c;目睹了nference Scaling如何让模型学会“思考”#xff0c;也感受到了开源力量对闭源巨头的强力冲击。在这一万余字的年度博文中#xff0c;Sebastian 博士…2025 年是 AI 领域的分水岭。我们见证了DeepSeek R1开启的强化学习RLVR风暴目睹了nference Scaling如何让模型学会“思考”也感受到了开源力量对闭源巨头的强力冲击。在这一万余字的年度博文中Sebastian 博士不仅复盘了算法和架构的演进更难能可贵地探讨了AI 时代的开发者生存哲学如何平衡工具调用与个人成长面对“刷榜”泛滥如何保持判断力以及为什么私有数据才是企业最后的护城河以下为转载内容原文The State Of LLMs 2025: Progress, Problems, and Predictionshttps://magazine.sebastianraschka.com/p/state-of-llms-2025随着 2025 年即将结束我想回顾一下今年大型语言模型的一些最重要的发展反思仍然存在的局限性和未解决的问题并分享一些关于接下来可能发生的事情的想法。正如我每年都会说的那样2025 年对于LLM和人工智能来说是非常多事的一年而今年没有任何进展饱和或放缓的迹象.一、推理之年RLVR 与 GRPO 的崛起我想探讨的话题很多但还是让我们按照时间顺序从 2025 年 1 月聊起。在过去的一段时间里虽然Scaling Laws依然奏效但单纯堆砌算力并没有真正改变大语言模型LLM的表现形式也没有让用户在使用体验上有质的突破唯一的例外是 OpenAI 当时刚刚发布的 o1它通过引入推理轨迹初步展现了不同。因此当 DeepSeek 在 2025 年 1 月发布R1 论文时整个行业都感受到了巨大的震撼。这篇论文向世人证明了类人类的推理行为可以通过强化学习培养出来。在大模型语境下所谓“推理”是指模型会主动解释其得出答案的过程而这种解释过程本身往往能显著提高最终答案的准确性。Figure 1: A short response and a longer response including intermediate steps that is typically generated by reasoning models.1.1 DeepSeek 时刻DeepSeek R1 之所以能引发如此巨大的关注主要有以下几个原因首先DeepSeek R1 是以“Open-weight”的形式发布的。它的性能极其出色足以与当时市面上最顶尖的商业闭源模型如 ChatGPT、Gemini 等并驾齐驱。其次DeepSeek R1 的论文促使许多人——尤其是投资者和媒体——开始重新审视其 2024 年 12 月发布的 DeepSeek V3 论文。这导致业界得出了一个颠覆性的新结论虽然训练最尖端的模型依然昂贵但其成本可能比之前预想的要低一个数量级。此前大家普遍认为需要耗资 5000 万甚至 5 亿美元而现在的估算更接近 500 万美元。此外DeepSeek R1 的补充材料中提到在 DeepSeek V3 的基础上通过强化学习训练出 R1 模型仅额外花费了约 29.4 万美元。这个数字再次刷新了所有人的认知远低于此前业界的普遍预期。当然这 500 万美元的估算值存在许多限制条件。例如它仅仅涵盖了最终模型训练运行时的计算算力成本并没有将研究人员的薪资以及与超参数调优、前期实验相关的其他研发投入计算在内。第三点也是最令人玩味的一点该论文提出了基于可验证奖励的强化学习并结合 GRPO 算法。这不仅是一套全新的或者说至少经过改良的算法方案更是一种在后训练Post-training阶段开发所谓“推理模型”并提升 LLM 性能的有效途径。Figure 4: Broad overview of how / when reinforcement learning is applied. There are many details that I am skipping in this overview, but interested readers can read more in my The State of Reinforcement Learning for LLM Reasoning article.在此之前诸如监督微调SFT和基于人类反馈的强化学习RLHF等后训练方法虽然至今仍是训练流程中不可或缺的一环但它们始终面临着一个巨大的瓶颈即需要极其昂贵的人工编写回复或偏好标注。当然你也可以用其他大模型来生成合成数据但这在某种程度上陷入了“先有鸡还是先有蛋”的悖论。DeepSeek R1 和 RLVR可验证奖励的强化学习之所以如此重要是因为它们允许我们在海量数据上对大模型进行后训练。在算力预算充足的前提下这使其成为了通过后训练阶段的“算力缩放Scaling Compute”来提升并释放模型能力的绝佳方案。RLVR 中的“V” 代表“可验证Verifiable”。这意味着我们可以利用确定性的方法来判定答案是否正确而这些标签足以让大模型学会解决复杂的逻辑问题。目前最典型的应用领域是数学和代码但这一思路完全可以扩展到其他领域。Figure 5: A simple example of a verifiable reward.话虽如此今年的核心要点在于LLM 的发展基本上是由采用 RLVR 和 GRPO 算法的推理模型所主导的。实质上在 DeepSeek R1 发布之后几乎每一家主流的开源或闭源 LLM 开发商都相继推出了其模型的“推理通常被称为‘思考’”版本。1.2 LLM 的核心演进点如果我必须简明扼要地总结每一年的 LLM 开发重心除了架构扩容和预训练算力增长这些常规操作外我的清单会是这样的2022 年 RLHF PPO2023 年 LoRA SFT2024 年中间训练Mid-Training2025 年 RLVR GRPO当然预训练依然是所有大模型不可或缺的基石。除此之外正是RLHF通过 PPO 算法才让我们在 2022 年底迎来了最初的 ChatGPT 模型。到了2023 年业界的关注焦点大量集中在LoRA以及类似的“参数高效微调PEFT”技术上这让训练自定义的小型大模型变得触手可及。Figure 6: Some of the focus areas of proprietary and open-weight LLM development over the years. Note that this is cumulative, meaning that RLHF PPO, for example, is still relevant and being used. However, it’s no longer the most hotly discussed topic.随后在2024 年各大主流实验室开始让他们的预训练流水线变得更加精细化。重点转向了合成数据、数据配比优化、领域特定数据的应用以及加入专门的长上下文训练阶段。我在 2024 年的一篇文章中总结过这些不同的方法当时我将这些技术归类在预训练之下因为“中间训练”这个词在那个时候还没被创造出来当时我将这些视为预训练技术因为它们使用的是与预训练相同的算法和目标。而到了今天这些在通用数据大规模预训练之后、且更具针对性的预训练阶段通常被称为“中间训练Mid-training”它是常规预训练与后训练之间的桥梁后者包括 SFT、RLHF 以及现在的 RLVR。那么你可能会好奇接下来的方向是什么我认为明年我们将看到更多关于 RLVR 的关注。目前RLVR 主要应用于数学和代码领域。下一个逻辑上的必然步骤是不仅要将最终答案的正确性作为奖励信号还要在 RLVR 训练期间评判 LLM 的解释过程。这种做法其实已经存在很多年了在研究领域被称为“过程奖励模型PRM”。然而目前它还算不上非常成功。例如DeepSeek R1 的论文中就曾提到4.2 失败的尝试……总之虽然 PRM 在对模型生成的 Top-N 个回复进行重排序或辅助引导搜索方面表现出了不错的能力但在我们的大规模强化学习实验中与其带来的额外计算开销相比它的优势非常有限。然而纵观上个月发布的DeepSeekMath-V2论文我在之前的文章《从 DeepSeek V3 到 V3.2架构、稀疏注意力和 RL 更新》中讨论过我认为在未来我们会看到更多将“解释评分”作为训练信号的案例。目前对解释过程进行评分通常需要引入第二个 LLM。这引出了我预见的 RLVR 的另一个发展方向向数学和代码以外的其他领域扩张。所以如果你今天问我 2026 年和 2027 年的愿景是什么我会给出如下预测2026 年RLVR 的扩展应用以及更多的推理侧缩放Inference-time Scaling2027 年持续学习Continual Learning除了刚才提到的 RLVR 扩展我认为 2026 年的重心将更多地放在推理侧缩放上。推理侧缩放意味着我们在训练完成后当让 LLM 生成答案时投入更多的时间和资金成本但这种投入是非常值得的。推理缩放并不是一个全新的范式许多 LLM 平台在后台已经使用了一些相关技术。这本质上是延迟、成本和回答准确性之间的一种权衡。但在某些特定的应用场景中当准确性比延迟和成本更重要时极致的推理侧缩放完全是物有所值的。例如最近的 DeepSeekV2-Math 论文显示这种技术将模型在极具挑战性的数学竞赛基准测试中的表现推向了金牌级水平。Figure 7: Combination of two inference-time scaling methods: self-consistency and self-refinement. Additional self-refinement iterations improve accuracy. Annotated figure from the DeepSeekMath-V2 paper. Self-consistency and self-refinement are covered in chapters 4 and 5 of my Build A Reasoning Model (From Scratch) book.今年同行之间关于持续学习Continual Learning的讨论也显著增多。简而言之持续学习是指在不从零开始重新训练模型的情况下让模型直接学习新的数据或知识。这并非一个全新的概念我甚至有些好奇为什么今年它会被如此频繁地提及因为目前在持续学习领域并没有出现任何实质性的突破。持续学习面临的核心挑战是灾难性遗忘Catastrophic Forgetting——正如持续预训练实验所显示的LLM 在学习新知识的同时往往会在某种程度上遗忘旧知识。尽管如此既然这个话题如此火热我确实期待在未来几年里我们在减少灾难性遗忘方面能取得更多进展并使持续学习方法的研发成为未来的一个重要发展方向。二、GRPO年度学术研究的宠儿在 LLM 动辄耗资巨大的时代近年来的学术研究一直面临着不小的挑战。当然尽管预算有限或者正因为预算有限学术界依然能产生许多被主流采纳、并成为 LLM 进步基石的重要发现。近年来的典型案例包括LoRA《LoRA: Low-Rank Adaptation of Large Language Models》2021年以及相关的参数高效微调PEFT方法。Figure 8: A code-based introduction to LoRA tutorial另一个例子是DPO《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》即直接偏好优化你的语言模型其实秘密地就是一个奖励模型以及相关的“无奖励模型对齐”方法它们作为基于人类反馈的强化学习的一种替代方案而备受关注。Figure 9: A code-based introduction to DPO tutorial在我的圈子里今年的研究亮点非GRPO莫属。尽管它最初源自 DeepSeek R1 论文而非学术界但它依然为研究者们带来了极其兴奋的一年从概念上讲RLVR 和 GRPO 都非常有趣而且根据实验规模的不同它们的实验成本并不像预训练那样令人望而却步。因此今年我在 LLM 研究文献中无论是来自企业还是学术界看到了许多针对 GRPO 的数学改进其中不少后来被最尖端的 LLM 训练流水线所采纳。例如部分改进点包括Olmo 3 团队采用的方案零梯度信号过滤出自 Yu 等人2025 的 DAPO主动采样出自 Yu 等人2025 的 DAPOToken 级别损失函数出自 Yu 等人2025 的 DAPO去除 KL 散度损失出自 Yu 等人2025 的 DAPO 以及 Liu 等人2025 的 Dr. GRPO提高裁剪阈值Clip higher出自 Yu 等人2025 的 DAPO截断重要性采样Yao 等人2025取消标准差归一化出自 Liu 等人2025 的 Dr. GRPODeepSeek V3.2 采用的方案特定领域的 KL 强度调节例如数学领域设为零重加权 KL 散度离线策略序列掩码Off‑policy sequence masking保留针对 Top-p / Top-k 的采样掩码保留原始 GRPO 的优势函数归一化Advantage normalization我可以从实践经验中证实这些 GRPO 的“技巧”或改进对实际训练效果有着巨大影响。例如在应用了其中一项或多项修改后训练过程中那些“糟糕的更新”不再会导致整个训练崩溃我也再也不需要周期性地去回滚和重新加载检查点了。即使是在非常短的训练运行中我观察到采用这些技巧也能带来巨大的收益Figure 10: Small excerpt of the results from my from-scratch GRPO training code, which is available on GitHub无论如何在我的“从零开始构建推理模型”Build A Reasoning Model From Scratch代码仓库中我提供了一个最基础的vanillaGRPO 脚本感兴趣的读者可以去动手试玩。不久后我还会增加更多针对上述各种改进方案的消融实验研究。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】三、LLM 架构分水岭已现谈到 LLM 架构目前最尖端state-of-the-art的模型依然沿用着我们熟悉的“纯解码器decoder-style”Transformer 结构。然而在过去的一年里开源大模型界几乎达成了一个共识转向使用混合专家模型MoE层并且至少会采用一种“经过效率优化”的注意力机制如分组查询注意力GQA、滑动窗口注意力SWA或多头潜在注意力MLA。除了这些已经相对标准化的 LLM 架构优化外我们也看到了一些更为激进的效率改进旨在使注意力机制的计算复杂度随序列长度线性缩放。这方面的代表性成果包括 Qwen3-Next 和 Kimi Linear 中采用的 Gated DeltaNets以及 NVIDIA Nemotron 3 中使用的 Mamba-2 层。关于这一点我不打算在这里展开太细因为我专门写了一篇长达 1.3 万字且最近刚更新的文章来深度剖析这些架构。如果你想深入了解请移步《大语言模型架构大比拼》The Big LLM Architecture Comparison。Figure 11: The Big LLM Architecture Comparison我的预测是我们至少在未来几年内仍将围绕 Transformer 架构进行开发至少在追求最尖端的模型性能SOTA时是如此。与此同时我确实认为我们会看到越来越多像 Gated DeltaNet 和 Mamba 层这类针对效率和工程化的改进。因为在 LLM 训练、部署和使用的庞大规模下对于那些仍在为提供大模型服务而疯狂烧钱的公司来说从财务角度来看这样做是极其明智的。这并不意味着市面上没有其他替代方案。正如我在《超越标准 LLM》中所写文本扩散模型Text Diffusion Models就是一个有趣的研究方向。目前它们还属于实验性研究模型的范畴但谷歌已经透露他们将发布一款 Gemini Diffusion 模型。虽然它在建模质量上可能无法与他们的顶级旗舰模型抗衡但它的速度极快对于有低延迟要求的任务如代码补全极具吸引力。此外两周前开源权重模型LLaDA 2.0刚刚发布。其中最大的模型拥有 1000 亿参数是迄今为止最大的文本扩散模型性能与 Qwen3 30B 相当。没错它虽然没有推高整个行业的性能上限但在扩散模型领域仍是一个值得关注的里程碑。四、推理侧缩放与工具调用的爆发之年通过扩展训练数据和架构规模来提升 LLM 性能是一个已被证明行之有效且目前依然奏效的公式。然而特别是在今年这已经不再是“唯一”充足的秘诀了。我们从 2025 年 2 月发布的 GPT 4.5 身上就能看到这一点。据传GPT 4.5的规模远大于 GPT 4以及后来发布的 GPT 5这说明纯粹的规模扩张通常不再是向前推进最理智的方式。GPT 4.5 的能力或许优于 GPT 4但增加的训练预算被认为“性价比极低”。相反更精细的训练流程更加侧重于中间训练和后训练以及**推理侧缩放Inference Scaling**驱动了今年大部分的进展。例如正如前文讨论取得金牌级数学表现的 DeepSeekMath-V2 时所提到的推理侧缩放是我们让 LLM 按需解决极端复杂任务的有力杠杆之一OpenAI 的 GPT “Heavy Thinking” 或 “Pro” 模式也是类似的例子。虽然由于高延迟和高成本将这种模式用于所有任务并不明智但在某些特定场景下——如挑战性的数学题或编程难题——高强度的推理缩放就显得非常有意义。另一个重大进步源于在训练 LLM 时就植入“工具调用”的意识。众所周知幻觉是 LLM 面临的最大难题之一。可以肯定的是幻觉率正在持续改善我认为这很大程度上归功于上述的工具调用能力。例如当被问及“谁赢得了 1998 年世界杯”时LLM 不再尝试凭记忆作答而是通过工具调用使用传统的搜索引擎从相关主题的权威网站如国际足联 FIFA 官网筛选并抓取信息。解决数学问题时使用计算器 API 也是同理。比如OpenAI 今年早些时候发布的gpt-oss模型就是首批专门针对工具调用能力而开发的开源权重模型之一。Figure 12: Annotated table from the gpt-oss model card paper.不幸的是开源生态系统目前还没有完全跟上这一步伐。许多如果不是大多数的话工具在运行这些 LLM 时默认仍处于“非工具调用”模式。原因之一是这是一种正在演进的新范式现有的工具链需要时间去适配另一个原因则是出于安全考虑这本身就是一个更难解决的问题——给予 LLM 不受限制的工具调用权限可能会带来潜在的安全风险甚至对你的系统造成毁灭性的打击。我认为一个永远值得深思的问题是你会信任一个刚入职的实习生在拥有同样系统访问权限的情况下执行这些任务吗但我坚信在未来几年内随着本地运行 LLM 的普及启用并允许工具调用将变得越来越普遍。五、年度词汇刷榜狂热Benchmaxxing如果非要选一个词或一种趋势来描述今年的 LLM 发展“Benchmaxxing”再合适不过了。在这里“Benchmaxxing”指的是一种过度追求排行榜分数的强烈倾向。有时这种倾向甚至到了荒谬的程度提升基准测试Benchmark成绩本身成了终极目标而不再是衡量模型通用能力的参考指标。一个显著的例子是Llama 4。它在许多公认的基准测试中得分极高表现惊人。然而一旦开发者和用户真正上手使用大家就意识到这些高分并不能完全转化为现实世界的实操能力和实用价值。正如那句流行语所说如果测试集是公开的那它就不再是真正的测试集。如今的问题在于测试集数据不仅有意或无意地成了训练语料库的一部分甚至在 LLM 开发过程中被直接作为优化目标。回想当年即使公开测试集上的基准分数存在水分至少模型的相对排名通常还是可靠的。例如参考下方摘自 2019 年论文《ImageNet 分类器能否泛化到 ImageNet》Do ImageNet Classifiers Generalize to ImageNet?的标注图Figure 13: Annotated figure from the 2019 Do ImageNet Classifiers Generalize to ImageNet? paper.在 LLM 的开发过程中这种“刷榜”现象已经演变到了一个极点即基准测试分数已不再是衡量 LLM 性能的可靠指标。不过我确实认为基准测试依然是 LLM 必须跨越的必要门槛。换句话说如果我看到一个 LLM 在基准测试 Y 上的得分低于 X那我就已经能断定它不是一个优秀的模型。然而如果它的得分超过了 X这并不意味着它一定比另一个同样得分超过 X 的模型更好。另一个需要考虑的维度是图像分类器的任务非常单一即对图像进行分类。但 LLM 会被用于许多截然不同的任务文本翻译、摘要提取、编写代码、头脑风暴、解决数学难题等等。评估图像分类器拥有分类准确率这类明确的指标要比评估处理确定性任务和开放式任务的 LLM 简单得多。遗憾的是除了在实践中亲自尝试模型以及不断生成新的基准测试外目前还没有完美的解决方案。六、用于编程、写作与科研的 AI由于这个话题经常被提及我也想分享一下我对于“LLM 是否会取代人类处理某些任务甚至是职业”的一点拙见。从宏观角度看我将 LLM 视为赋予某些职业从业者“超能力”的工具。我的意思是当 LLM 被妥善使用时它们可以大幅提高个人的生产力并消除日常工作中的许多摩擦。这些任务的范围很广从相对琐碎的小事比如确保文章的所有标题大小写格式统一到在庞大的代码库中寻找复杂的 Bug。6.1 编程Coding时至今日我关心的核心代码依然坚持亲手编写。我所说的“关心”是指那些对我而言至关重要、必须确保完全理解且绝对正确的代码。例如如果我要编写一个 LLM 训练脚本我会亲自实现并仔细审阅训练逻辑。这样做有两个目的a) 确保代码的行为完全符合我的预期b) 保持并磨练我在该任务上的知识和专业能力。不过我现在会利用 LLM 来处理核心逻辑之外那些繁琐的“周边代码”比如添加命令行参数解析argparse的模板代码这样我就可以更方便地从命令行调用我写的程序了。Figure 14: Example adding command line arguments to a training script using the prompt “Add argparse for all hyperparameter options to training-script.py”.但也正因如此我越来越依赖 LLM 来发现潜在问题、提供改进建议或对某些想法进行可靠性检查Sanity-check。与此同时我依然坚持要理解自己所构建的东西。作为个人目标我旨在深化自己的知识和技能并持续增长专业能力。此外LLM 在我不擅长的核心领域之外表现出了极高的价值。它们让我能够自动化处理一些原本我没有时间或精力去对付的任务。一个典型的例子是我最近写了一个工具用于提取我的 Substack 文章并备份为 Markdown 格式我所有的稿件都是用 Markdown 起草的但我经常直接在 Substack 编辑器中修改和扩充内容所以本地草稿并不总是最新的。LLM 还帮我清理了网站上的 CSS 代码那些代码经过多年积累充满了重复和冲突。今年这类使用 LLM 的案例还有很多。简而言之我认为其中的诀窍在于识别何时该用 LLM何时不该用。以及如何以一种既能帮你增长专业知识又让你感到有成就感的方式去使用它。6.2 代码库与库函数LLM 编写代码的能力确实增强了但尽管听过一些人持相反意见我并不认为代码会变得“转瞬即逝”或是“彻底过时”。LLM 赋予了人们一种“超能力”让他们能够生成某些原本需要付出极大努力才能独立完成的编程项目。然而纯粹由 LLM 生成的代码库无法取代专家精心打造的代码库。这些专家级代码库可能本身就是人类程序员在使用 LLM 的辅助下创建的但关键点在于在该领域拥有专业知识的人投入了大量的时间和精力进行创建、测试和精炼。如果其他人想要复制它也需要付出大量的工作所以既然它已经存在为什么不直接采用呢简单来说我认为一个优秀的全栈 Web 开发人员——他了解优秀的设计模式明白各种权衡取舍并在职业生涯中研究、见过并构建过许多平台——他构建出的平台绝对比一个随意向 LLM 发送提示词Prompt的人构建出的要好。最棒的一点是现在一个普通人也可以构建出一个平台即便它不是最好的。然而使用和“调教”LLM 只能让这个人走这么远平台的质量很快会遇到瓶颈。因此如果这个人真的在乎改进这个平台深入钻研、学习他人是如何构建平台的然后带着更丰富的知识回来利用 LLM 更有效地指导和改进平台设计这才是上策。6.3 技术写作与科研与编程类似我不认为 LLM 会让技术写作过时。写一本优秀的技术书籍需要数千小时的投入以及对主题的深刻洞察。这个过程可能会涉及利用 LLM 来提高表达的清晰度、检查技术准确性、探索替代方案或运行小型实验但核心工作依然取决于人类的判断和专业知识。Figure 15: A non-staged example where an LLM just helped me to find and fix an error in a previous article.的确LLM 可以让技术书籍变得更出色。它们能帮助作者发现错误、扩展参考文献并普遍减少在琐碎任务上消耗的时间。这让作者能腾出更多精力去处理那些真正需要创意和经验的深度工作。从读者的角度来看我也并不认为 LLM 会取代技术写作。对于快速提问和入门级解释使用 LLM 学习某个主题效果很好。然而当你想要建立更深层次的理解时这种方式很快就会变得一团乱。在那个阶段与其为了一个你正尝试学习但还不是专家的主题自己浪费数小时去过滤 LLM 的回复往往不如遵循由专家设计的结构化学习路径更有意义专家在设计路径时可能用了 LLM也可能没用。当然在参加课程或通过书籍学习时使用 LLM 来澄清疑问或探索分支路径仍然完全合情合理。让它设计测验或练习题来巩固知识也非常棒。总的来说我认为 LLM 对作者和读者来说都是一种双赢。但其中的诀窍在于要学会识别何时该用 LLM何时不该用。例如一个主要的负面影响是当一个主题变得困难时人们很容易产生立即求助于 LLM 的冲动。然而首先自己独立钻研问题并苦苦思索往往能带来更扎实、更深刻的学习效果。我看待科研Research的方式也大抵如此。LLM 在寻找相关文献、发现数学符号错误以及建议后续实验方案方面非常有用。但让一位人类研究者稳坐驾驶席依然是有意义的。也许这里可以总结出一些经验法则如果这篇研究论文或这本书完全是由人类生成的它可能还有进一步改进的空间而如果这篇研究论文或这本书仅靠向 LLM 发送提示词就能生成那么它可能不够新颖或者深度不足。6.4 LLM 与职业倦怠BurnoutLLM 仍然是一个相对较新且不断演进的事物我认为过度使用 LLM 还存在一个较少被讨论的弊端。例如我认为如果模型承担了所有的实操工作而人类主要负责监督那么工作可能会开始变得空洞。诚然有些人的确享受专注于管理系统和协调工作流这完全是一种合理的偏好。但对于那些热爱“亲自动手做这件事”本身的人来说我认为这种工作模式可能会加速职业倦怠尤其是考虑到现在有了 LLM公司往往会期望更快地获得更多成果情况可能更是如此。当你苦苦钻研一个难题并最终看到它成功运行时会有一种特殊的成就感。而当 LLM “一发入魂”直接给出解决方案时我并不会产生同样的感觉。我想这和烹饪很像这只是我脑子里跳出的一个想法我并不是个大厨如果你喜欢做披萨使用现成的面团只负责撒调料可能会剥夺大部分乐趣烹饪就变成了一种达成目的的手段。这未必是坏事但如果你每天花很多时间、长年累月数月或数年都在做这样的工作我可以预见这会让人感到空虚并最终导致职业倦怠。所以从一个“自私”的角度来看写代码通常比读代码更有趣。你可能也会同意提交代码Pull Request通常比审核代码Review更快乐当然这并不适用于所有人。也许关于如何以一种可持续的方式使用 AI国际象棋是一个很棒的、理想化虽然并不完美的类比。早在几十年前国际象棋引擎就超过了人类玩家但由人类参与的职业象棋比赛至今依然活跃且蓬勃发展。我不是象棋专家但我敢说这项游戏可能变得比以前更丰富、更有趣了。根据我所听到的例如加里·卡斯帕罗夫的《深度思考》一书以及马格努斯·卡尔森参与的播客现代棋手一直在利用 AI 探索不同的思路、挑战自己的直觉并以一种以前根本无法企及的深度来分析错误。我认为这为我们思考 AI 在其他形式的知识性工作中的应用提供了一个有用的模型。如果使用得当AI 可以加速学习并扩展单个人的能力边界。我认为我们应该更多地将其视为一个合作伙伴而不是替代品。但我也认为如果利用 AI 来完全外包思考和编码则会面临破坏动力和长期技能发展的风险。Figure 16: LLMs lower the barrier of entry, and they make coders (beginners and experts) more productive. However, as we are wrapping up the year 2025, I think it’s still worth investing in becoming an expert, because then you will get even more out of LLMs and will be able to deliver even better results.七、竞争优势私有数据LLM 在通用编程、知识问答和写作方面的能力仍在持续提升。这很大程度上是因为得益于训练流程和范式如 RLVR的改良以及推理侧缩放和工具调用技术的进步单纯的“规模化”投入依然能带来正向的投资回报。然而这种增长终究会在某个时间点进入平台期正如我们在 GPT-4 到 GPT-4.5 的演进中所看到的除非我们能不断发明全新的训练方法或架构虽然目前还没人知道这些新东西究竟长什么样。目前的 LLM 已经能够胜任大量的通用任务并解决掉那些“低垂的果实”。但若想让它们在特定行业深耕并站稳脚跟则需要更深入的领域专业化。我认为 LLM 供应商们做梦都想获得高质量的领域特定数据但就目前来看这无疑是一项巨大的挑战。例如据观察大多数被接触过的公司都拒绝了这类数据交易。原因显而易见这些数据是私有的更是他们维持商业差异化的核心竞争力。我从多个渠道听到了这种说法The Information 之前也有一篇专门探讨此话题的文章。在我看来这种做法完全合情合理。为了眼前的利益将宝贵的私有数据出售给 OpenAI 或 Anthropic无异于杀鸡取卵从长远来看是非常短视的。Figure 17: Example of sectors and types of data that could be useful for training domain-specific LLMs, but where selling the data externally would be concerning. (I am not a legal expert, and this is not legal advice, but I can imagine that if it’s a pure local LLM that doesn’t leave the companies’ secure servers, training the model on patient health data is no different than developing other types of internal software that works with that patient health data.)目前大规模的 LLM 开发成本极高且极具挑战性这也是为什么只有少数几家大公司能够研发出顶尖 LLM 的原因。然而我认为 LLM 的开发正日益趋向于“商品化”。随着 LLM 开发者在不同雇主之间频繁跳槽他们最终会被财力雄厚的大型金融机构、生物技术公司以及其他企业招致麾下。这些公司拥有足够的预算能够利用其特有的私有数据开发出极具竞争力的企业内部 LLM。这些模型甚至不需要完全从零开始训练目前许多顶尖的 LLM如 DeepSeek V3.2、Kimi K2 和 GLM 4.7都在持续发布企业完全可以对这些模型进行适配并开展进一步的后训练。八、2025 年的惊喜与 2026 年的预测我想以一些核心心得来结束这篇文章重点谈谈那些令我感到意外的进展以及我对 2026 年的预判。8.1 2025 年值得关注的惊喜首先回顾一下 2025 年的惊喜。如果在一年前2024年问我我可能不会预料到以下发展推理模型表现超预期已有数款推理模型在主流数学竞赛中达到金牌水平包括 OpenAI 的某款未定名模型、Gemini Deep Think以及开源权重的 DeepSeekMath-V2。我并不惊讶这最终会发生但我惊讶于它在 2025 年就实现了而不是 2026 年。开源社区重心转移Llama 4或者说 Llama 系列在开源社区几乎完全失宠Qwen通义千问在受欢迎程度、下载量以及衍生项目数量上已全面超越 Llama参考 Nathan Lambert 的 ATOM 项目报告。架构的融合与借鉴Mistral AI 在 2025 年 12 月发布的最新旗舰模型 Mistral 3 中采用了 DeepSeek V3 的架构。开源竞技场百花齐放除了 Qwen3 和 DeepSeek R1/V3.2 之外开源 SOTA最尖端模型的角逐中涌现了大量有力竞争者包括 Kimi、GLM智谱、MiniMax 和 Yi零一万物。高效架构成为主流领先的实验室已将开发重点转向更便宜、更高效的混合架构如 Qwen3-Next、Kimi Linear、Nemotron 3而不再仅仅将其视为边缘课题。OpenAI 拥抱开源OpenAI 发布了开源权重模型gpt-oss我今年早些时候专门写过一篇文章介绍它。MCP 协议的统一MCP现已加入 Linux 基金会已迅速成为智能体Agent类 LLM 系统在工具和数据访问方面的标准。我原本预计 2025 年该生态仍会保持碎片化至少要到 2026 年才会统一。8.2 2026 年大预测扩散模型重塑推理我们可能会看到工业级、面向消费者的文本扩散模型用于实现廉价、可靠且低延迟的推理Gemini Diffusion 可能会率先领跑。智能体本地化开源社区将缓慢但坚定地转向支持“本地工具调用”和具备更强“自主智能体Agentic”能力的 LLM。RLVR 跨界RLVR可验证奖励的强化学习将广泛扩展到数学和代码之外的其他领域如化学、生物学等。传统 RAG 的退场在文档查询中经典的 RAG 架构将逐渐淡出。开发者将更多地依赖强大的“长上下文处理”能力尤其是随着更优秀的“小型”开源权重模型的出现。推理驱动进步很大一部分 LLM 的基准测试提升和性能进步将源于工具链的改进和推理侧缩放而非训练过程或核心模型本身。这看起来像是 LLM 变强了但主因是外围应用的进化。同时开发者将专注于降低延迟并在不必要的地方减少推理 Token 的消耗。别误会2026 年 SOTA 水平仍会提升但进步的比例将更多来自推理侧而非纯粹的训练侧。如果要为 2025 年总结一条“元经验Meta-lesson”那就是LLM 的进步不再依赖于单一的突破而是通过多个独立杠杆在多个战线上齐头并进。这包括架构微调、数据质量提升、推理训练、推理侧缩放、工具调用等等。与此同时评估依然困难基准测试并不完美对于“何时以及如何使用这些系统”的专业判断力依然至关重要。我对比 2026 年的希望是我们不仅能继续看到有趣的进步还能清晰地理解这些进步从何而来。这需要更完善、更一致的基准测试以及必不可少的透明度。感谢你们的阅读也感谢这一年来在 Substack Notes、GitHub 以及各个平台上给予的反馈与讨论。这些正向的反馈和深度交流真正激励了我让我愿意投入时间和精力去撰写长篇技术文章并持续深挖 LLM 的研究与实现细节。我从这些交流中学到了很多希望你们也是。我非常期待在进化的 2026 年与大家继续这些对话九、如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

酒泉网站建设与制作帝国+只做网站地图

免费的软件网站wordpress+分页静态

做网站如何找客户成都市城乡住房建设厅网站

做汽车养护的网站营销推广案例

商业网站开发教程shopify是什么平台

近五年网站开发参考文献曲沃网站开发

西部网站域名出售wordpress更新要ftp