电子商务网站建设与管理实训总结企业自己做网站

张小明 2026/1/8 21:34:31
电子商务网站建设与管理实训总结,企业自己做网站,做新闻类网站如何盈利,国内四大门户网站今天讲的是 训练策略#xff08;重点是损失函数#xff09;#xff0c;跟模型架构没有关系导读#xff1a;在AI领域#xff0c;“大力出奇迹”似乎是永恒的真理。更大的模型、更大的显存、更大的Batch Size...但在谷歌最新的SigLIP论文中#xff0c;研究人员用一个简单的…今天讲的是 训练策略重点是损失函数跟模型架构没有关系导读在AI领域“大力出奇迹”似乎是永恒的真理。更大的模型、更大的显存、更大的Batch Size...但在谷歌最新的SigLIP论文中研究人员用一个简单的数学变换证明有时候做得更少反而能做得更好。本文将带你深入底层看Sigmoid如何四两拨千斤取代Softmax重塑多模态训练。引言打破“越大越好”的迷思在多模态大模型VLM的训练中OpenAI的CLIP曾是当之无愧的王者。为了提升性能由于CLIP使用的是对比学习Contrastive Learning大家普遍认为必须无限扩大Batch Size批次大小因为只有负例池子够大模型才能学得更好。然而谷歌的SigLIP (Sigmoid Loss for Language Image Pre-training)横空出世抛出了一个反直觉的结论只要方法对4块TPU就能干翻数百块GPU而且Batch Size根本不需要无限大。这是怎么做到的⚔️ 第一回合Softmax vs Sigmoid从“大乱斗”到“独立团”SigLIP与CLIP的核心区别不在于模型架构它们都是双塔ViTTransformer而在于损失函数Loss Function的设计。1. CLIP (Softmax)一场残酷的“大乱斗”CLIP的训练逻辑是全局竞争。 想象一下为了让模型认出“猫”的图片和“猫”的文字是一对模型不仅要看它们俩配不配还要把这张图和同批次里所有的“狗”、“房子”、“汽车”文字去比较最后做一个多选题在几万个选项中谁是正确答案这需要进行全局归一化意味着每算一个样本都要牵扯到全班同学。这导致内存消耗巨大且必须同步所有设备的数据。2. SigLIP (Sigmoid)冷静的“独立判断”SigLIP的逻辑是独立判断。 它把复杂的多选题变成了无数道判断题Yes/No。模型只看“猫图”和“猫文”是同类吗是。模型看“猫图”和“狗文”是同类吗否。它根本不在乎批次里有没有其他东西。这种Pairwise成对的处理方式让内存占用暴跌计算效率飙升。硬核解析数学公式与数据推演为了让大家彻底理解我们不仅要看热闹还要看门道。1. 不同的数学“引擎” CLIP 的 Softmax LossImage→Text方向它要求分母包含全批次所有样本的相似度总和。痛点注意那个分母 它意味着你必须算出所有人的分数值才能知道自己的排名。 SigLIP 的 Sigmoid Loss它没有分母只有独立的二分类累加。亮点 是标签匹配为1不匹配为-1。这里引入了一个关键的 **偏置项 **用来抵消负例过多的影响保证训练稳定。2. 只有2个样本时的“实战演练”假设我们有一个极小的Batch大小2Pair 1: 图1 () - 黑猫 () ✅Pair 2: 图2 () - 黄狗 () ✅负例: (猫配狗), (狗配猫)假设模型算出的相似度矩阵如下图片 \ 文本(黑猫)(黄狗)(猫图)0.8(高)0.2 (低)(狗图)0.3 (低)0.9(高)➤ CLIP 怎么算 (Softmax)?它看的是相对概率。 对于猫图 ()分子 分母 得分➤ SigLIP 怎么算 (Sigmoid)?它看的是绝对概率(设 )。 它独立处理4种组合猫-猫 (正例): 输入 → Sigmoid(0.7) (做对了)猫-狗 (负例): 输入 → Sigmoid(-0.1) (接近0.5稍微有点困惑但还好)...以此类推本质区别CLIP必须要对比 和 的关系才能算出 的分而SigLIP算 时根本不看 一眼。 为什么这很重要1. 性能饱和点32k就够了这就解释了论文中那个惊人的发现Batch Size 到了 32,000 左右性能就饱和了。以前大家以为要推到百万级Batch其实那是Softmax带来的错觉。SigLIP告诉你没必要为了这就去买几千张显卡。2. 算力民主化SigLIP最让个人开发者兴奋的是它的效率。SigLiT模型仅用4块 TPUv4训练2天ImageNet 零样本准确率达到 **84.5%**。这意味以前只有Google、Meta能做的大规模多模态预训练现在小型实验室甚至个人极客也有机会上手了。3. 抗噪能力MAX网络数据大多是脏乱差的。在CLIP的“大乱斗”模式下一个错误的负例会污染整个Batch的归一化计算。而SigLIP是独立判断一颗老鼠屎坏不了一锅粥模型更鲁棒。 经典环节1 -- 人话总结SigLIP 是什么如果说CLIP是在搞“比武招亲”那SigLIP就是在搞“快速相亲”。过去 (CLIP)全员大乱斗在一堆备胎负例里必须通过全局对比选出唯一的真爱。这就像要把所有人拉到一个群里比输赢牵一发而动全身极度消耗显存只有土豪才玩得起。现在 (SigLIP)独立判断题不搞排名不看别人只看眼前这一对图和文“你俩配吗”配 ➝Yes不配 ➝No互不干扰极其省流。** 核心结论** 谷歌证明在这个游戏里简单 复杂。SigLIP 换掉了费油的旧引擎Softmax → Sigmoid打破了“批次越大越好”的迷信证明32k 大小就够了让几块显卡也能跑出顶级效果实现了极致的“降本增效”。 经典环节2 -- 课后大闯关检验你的理解深度读懂了吗来做个测试吧答案在题目下方建议先思考再看答案1. SigLIP 与 CLIP 在模型架构Backbone上的主要区别是什么A. SigLIP 使用了更深的 ResNet B. SigLIP 引入了 MoE 架构 C. 没有本质区别架构基本相同 D. SigLIP 去掉了文本编码器答案C解析这是一个陷阱题。SigLIP 的创新主要在于损失函数Loss Function其底层的 Vision Transformer 和 Text Transformer 架构与 CLIP 几乎完全一致。就像换了引擎的赛车外壳没变。2. 为什么 SigLIP 在处理“噪声数据”错误的图文对时比 CLIP 更稳健A. 因为 Sigmoid 能够自动过滤数据 B. 因为 Softmax 的全局归一化会导致一个坏样本影响全批次计算 C. 因为 SigLIP 的 Batch Size 更小 D. 因为 SigLIP 训练时间更长答案B解析CLIP 的 Softmax 分母包含所有样本一个异常值会“污染”分母进而影响所有样本的梯度。SigLIP 是 Pairwise 独立计算互不干扰因此对噪声有天然的“防火墙”。3. 关于 Batch Size 对性能的影响SigLIP 的实验得出了什么反直觉的结论A. Batch Size 越大性能总是越好 B. Batch Size 必须小于 4096 否则不收敛 C. 性能在 Batch Size 约为 32k 时达到饱和再大也无明显收益 D. Batch Size 对性能完全没有影响答案C解析传统观点认为对比学习必须依赖超大 Batch百万级来提供足够的负例。SigLIP 证明了在使用 Sigmoid Loss 的情况下32k 大小的 Batch 已经足以达到性能天花板打破了“无限大批次”的神话。4. 在 SigLIP 的公式 中参数 的作用是什么A. 增加模型的非线性 B. 作为一个可学习的偏置用于平衡正负例数量巨大的不对称性 C. 控制温度系数 D. 没什么用可以设为0答案B解析在一个 Batch 中正例只有对角线上的几个负例有 个。正负例极度不平衡。偏置项 初始化为负值如-10就是为了在训练初期告诉模型“大部分情况下都是不匹配的”防止Loss爆炸保证训练稳定启动。5. 假如你只有有限的显存资源想训练一个高性能VLM为什么选 SigLIP 优于 CLIPA. SigLIP 必须要 TPU 才能跑 B. SigLIP 需要存储巨大的 $N \times N$ 相似度矩阵 C. SigLIP 支持分块计算Chunking无需存储全量矩阵内存效率更高 D. SigLIP 的代码行数更少答案C解析这是工程上的核心优势。CLIP 因为要做全局 Softmax必须把所有特征向量收集在一起算。SigLIP 可以把 Batch 切成小块算完一块的 Loss 就丢掉只需要累加标量 Loss 即可极大降低了峰值显存需求。原始论文地址https://arxiv.org/abs/2303.15343附上高清思维导图可以自取恭喜你通关哦多模态AI的进化速度惊人我们正离真正的通用人工智能越来越近。本期作者: JackLi算法研究员热爱paper解读技术和工具分享。全网唯一账号“心眸AI笔记”*喜欢本文持续关注欢迎点赞、在看、转发一起探索 AI的底层逻辑和拥抱AI。本文来自个人看法如有见解欢迎评论区留言。觉得有用点个“在看” 分享给身边的伙伴喜欢这类硬核干货关注我们每期带你彻底读懂一篇顶会论文
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站备案查询app下载个人网站备案 拍照

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个性能测试工具,比较Miniforge3和Conda在创建环境、安装包和运行脚本时的效率。代码应包含计时功能、资源监控和结果可视化,输出详细的对比报告。确保…

张小明 2026/1/4 0:38:50 网站建设

开发门户网站需要注意什么wordpress 层实现

你是否曾经对AMD Ryzen处理器的性能潜力充满好奇?是否想要深入了解硬件底层的运行机制?今天,我们将带你探索一款专业级的开源调试工具——SMUDebugTool,它能够让你直接与处理器对话,实现前所未有的性能优化体验。 【免…

张小明 2026/1/3 16:44:50 网站建设

东莞php网站开发wordpress 修改仪表盘

玩转WS2812B:STM32驱动全彩LED的底层逻辑与实战优化你有没有遇到过这样的情况?精心写好的WS2812B控制代码,烧进去后灯珠却“抽风”——颜色错乱、闪烁不停,甚至只亮一半?别急,问题很可能不在于你的逻辑&…

张小明 2026/1/5 20:48:10 网站建设

河北城乡建设官网站网站收录问题

20倍推理加速10万亿token训练:Emu3.5开启多模态世界模型新纪元 【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5 导语 北京智源研究院发布悟界Emu3.5多模态世界大模型,通过原生多模态架构实现图文视频统一建模&#xff0…

张小明 2026/1/2 0:12:44 网站建设

做零食用哪个网站好计算机网页设计就业方向

用Miniconda管理多个PyTorch版本的实用技巧 在深度学习项目开发中,你是否曾遇到这样的窘境:刚跑通一个基于 PyTorch 1.12 的旧模型,团队却要求你在新项目中使用 PyTorch 2.1 的图优化功能?结果一升级,老项目直接报错—…

张小明 2026/1/1 14:48:14 网站建设

做的物流网站苏州网站设计公司兴田德润好不好

除了视觉伺服,解决机械臂抓取不准的方法覆盖力 / 触觉反馈、运动学补偿、机器学习、硬件 / 环境优化、多传感器融合等多个维度,不同方法适配不同误差来源(如机械臂自身建模误差、环境扰动、目标特性未知等)。以下是各类方法的核心…

张小明 2026/1/2 1:32:29 网站建设