东莞做网站的公司有哪些厦门百度seo

张小明 2026/1/9 5:42:59
东莞做网站的公司有哪些,厦门百度seo,做网站推广方法,网站开发要什么着 DeepSeek-OCR这篇论文#xff0c;本章我们来回顾下多模态大模型#xff08;VLM#xff09;的核心技术演进。很多人认为#xff1a;图像Token的信息密度和效率远不如文本。但 DeepSeek-OCR的核心价值#xff0c;就是用实践证明了这是一个伪命题。它通过一套巧妙的串行视…着 DeepSeek-OCR这篇论文本章我们来回顾下多模态大模型VLM的核心技术演进。很多人认为图像Token的信息密度和效率远不如文本。但 DeepSeek-OCR的核心价值就是用实践证明了这是一个伪命题。它通过一套巧妙的串行视觉压缩架构实现1个视觉Token近乎无损地承载10个文本Token的惊人效率。下面我们沿着O(N2)危机→结构感知→语义对齐 的路径来梳理这背后的技术基石。Part I多模态基石的构建与O(N2)危机我们先来回顾下多模态模型的技术基石我们将按照模型结构-多模态对齐-指令生成这条路径进行深入。ViT: 图像的 BERT 化与O(N2)的起点Google: AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE ViT的本质像是图像领域的Bert只不过把文字token转换成了图像的像素块。在ViT出现之前图像领域清一色使用CNN、ResNET强调各种图片特征提取例如平移不变性局部特征等等。但是ViT的出现再一次证明大力出奇迹只要数据量足够大简单的Transformer Encoder胜过一切。image如果我们通过和NLP Transformer类比来认识ViT的话整个模型结构会分成以下几个部分Tokenization在文本中句子被tokenize成token作为模型的输入。在图像中一个Height * Width * Channel大小的图像会被分割成固定大小1616的像素块Patch。如果图片的长宽是224224则模型的输入会有224224/(1616)196个像素块。输入层ViT的输入层包含两个部分Patch Embedding:因为图像不像文本有可枚举的token因此无法使用词典向量进行映射所以ViT选择通过线性映射层MLP来把patch映射到固定的维度D。Positional Encoding和NLP相同为了保留位置信息ViT加入了1D的position embedding2D经试验没有效果提升因为大量数据会让模型在一维关系中学习到空间特征Class Head和BERT相同ViT也加入了一个可学习的全局token用于表征图片的整体信息。中间层中间层就是传统的Transformer结构了通过交替的多头注意力MLP线性映射层和LayerNorm归一化层。训练策略考虑论文本身就是为了证明训练数据的Scaling战胜一切因此在训练策略上也做了很相近的消融策略包括数据量试验在Image-Net这种1M左右的小数据上效果弱于ResNet但是当在300M的数据上进行训练时效果全面超越CNN分辨率试验在低分辨率预训练在高分辨率微调。其实和现在长上文的NLP模型训练思路一致在预训练输出长度较短在post-train阶段在渐进式增长。位置编码实验为了适配上面分辨率增长的问题ViT在固定位置便马上进行差值训练超参使用Adam低正则参数数据量足够大很少过拟合VIT在后面任务中面临最大的问题就是O(N2)的视觉token膨胀随着输入图片分辨率的变大当输入1024*1024高分辨率图片时输入token数将高达4096。VIT-DET解决O(N2)的局部注意力方案Meta: Exploring plain vision transformer backbones for object detection ViTDet 解决了 Plain ViT 无法用于高分辨率密集预测如检测、分割、OCR的痛点其解决方案与 NLP 领域的 Longformer 思路高度相似局部窗口 Attention 稀疏全局连接。窗口注意力机制将高分辨率图像划分成14 *14或者16 * 16的块内部进行Attention这样不论输入的图像像素如何变化在Self-Attention层的计算复杂度都是恒定不会变化的。这样每个图像patch只关注它所在窗口内的相邻patch。这也是后面DeepSeek-OCR能处理高分辨率图像的技术基础。稀疏全局 Attention 层那局部Attention肯定要配合全局Attention能力才能让block之间的信息互通。VIT-DET在网络中插入了4个标准的全局Attention层例如如果整个VIT有24层则每6层插入一个全局层这样保证全局信息交互只在有限层进行用于在保证显存和计算成本可控的前提下兼顾全局信息的共享。Segment Anything Model图像分割领域的 GPT-3MetaSegment AnythingMeta: Exploring Plain Vision Transformer Backbones for Object Detection SAM是一个支持Prompt Engineering的生成式模型但生成的不是token而是mask。它引入了promptable segmentation任务给模型一个提示点、框、文本模型负责切割对应的物体。为DeepSeek-OCR提供了感知图片结构和几何的模型基础。image如上图所示SAM模型包含三个组成部分Image Encoder使用MAE预训练的VIT模型作为强大的特征提取器提取每张图片的Embedding。MAE类似NLP里面BERT的训练方式BERT是完形填空MAE是遮掩部分图片进行重构还原。Prompt Encoder这里的图像分割指令有两种Sparse包含points用户点中了图像中的某个物体和boxes用户框柱了图像的一个矩形区域。分别用单个坐标和左上右下两个坐标点使用可训练的位置编码表征。Dense文本描述例如一把黑色的剪刀。使用预训练CLIP的Text EncodierMask Decoder轻量的Transformer Decoder简单解释Image Embedding就是Key/Value, Prompt Embedding是Query通过cross-Attention去图像里面捞出对应的像素区域使用输出头在整个图片上进行分类预测预测每个位置是否应该被Mask。同时为了解决Prompt Ambiguity的问题例如如果用户点击了T恤那用户究竟是想分割人还是想分割T恤论文提出了同时预测3个MASK的方案同时预测多个可能的分割掩码结果并用模型置信度打分选择最优可能的一个进训练类似NLP模型的Beam-Search。CLIP视觉与文本的“罗塞塔石碑”OpenAI: Learning Transferable Visual Models From Natural Language Supervision CLIP本质就是一个Dual-Encoder对齐模型可以类比NLP领域的SimCSE。通过InfoNCE Loss进行大规模对比学习把文本和图像映射到同一个向量空间。被当前多模态太模型提供了核心的模态对齐能力。image感觉直接看qseudo code比看图来的更清晰整个CLIP的训练过程如下# extract feature representations of each modalityI_f image_encoder(I) #[n, d_i]T_f text_encoder(T) #[n, d_t]# joint multimodal embedding [n, d_e]I_e l2_normalize(np.dot(I_f, W_i), axis1)T_e l2_normalize(np.dot(T_f, W_t), axis1)# scaled pairwise cosine similarities [n, n]logits np.dot(I_e, T_e.T) * np.exp(t)# symmetric loss functionlabels np.arange(n)loss_i cross_entropy_loss(logits, labels, axis0)loss_t cross_entropy_loss(logits, labels, axis1)loss (loss_i loss_t)/2多模态映射: 选取对应模态的预训练模型来对不同模态的输入进行特征提取Text encoder: CBOW或者BertN*I - N * L * Dimage encoderViT或者Resnet NHW*C - N * L * D再通过线性投影层把不同模态的向量维度映射到相同的维度空间对比训练训练策略是通过Batch Contrastive Loss进行的每个样本都有图片和对应的文字描述构成因此一个batch内文本表征和图片表征的叉乘矩阵应该只有对角线的相似度最高为正样本其余都为负样本。之所以选择InfoNCE而非传统的Image Caption预测因为论文发现这种训练方式模型收敛很慢毕竟一个图片其实有无数种语言的描述方案只让模型精准预测其中一种描述本身就不合理。而直接对齐高维向量表征的训练效率显著更高样本构建图片和对应的文字描述样本集总共4亿条为了保证图片概念的覆盖率论文采用了搜索进行构建先构建query集再通过搜索构建(image,text) pair对。模型使用使用以上对比训练得到的图像和文本Encoder可以在两个领域之间进行零样本的知识迁移类比GPT3水平的zero-shot可以通过提示词“Transfer English to French”实现指令理解。CLIP训练过的图文Encoder同样可以例如你要对象进行分类只需要把1000个标签填入“A photo of {label}”然后用Text Encoder进行编码再计算和图像Encoder相似度最高的文本向量就是该图片的分类了。CLIP不仅为图像和文本模态对齐提供了思路同时也是较早关注图像领域zero-shot开放域迁移的。Part IIDeepSeek-OCR 的核心贡献光学压缩秘籍DeepSeek-OCR: Contexts Optical CompressionimageDeepSeek-OCR的核心亮点在于它提出了一个革命性的观点通过高分辨率图像渲染 专用压缩架构可以将长文本内容压缩成数量更少的视觉 Token从而为LLM 的长上下文难题提供新的压缩思路。OCR其实只是一个实验场景论文核心要回答的是“一张包含 1000 个单词的图片到底最少需要多少个 Visual Token 才能让 LLM 完美还原出这 1000 个词”串行压缩的 DeepEncoder 架构DeepSeek-OCR 的 DeepEncoder 仅有 380M 参数但通过巧妙的串行Serial结构完美平衡了“高分辨率”与“低 Token 数”的需求。80M SAM预训练VIT-DET通过window-Attention能在高分辨率图像下保持相对较低的显存占用负责图片核心的结构特征提取。两层16*16CNN Compressor用于对SAM输出的图像特征进一步降采样降低激活率是DeepSeek-OCR高保真极高压缩率的核心。300M CLIP预训练VIT-Large移除了首层的Embedding层因为输入从图片变成了CNN降采样后的图像向量采用全局注意力机制对CNN降采样后的视觉Token进行全局语义的整合。虽然都是VIT模型结构但DeepSeek-OCR的组合方式大有学问。前面我们提到SAM本身的训练目标是边缘检测因此预训练后的模型对于几何结构、笔画边界、布局线条有更强的捕捉能力所以使用SAM预训练模型作为OCR的特征提取器再合适不过。而使用CLIP作为后端接受经过压缩的视觉特征自然是使用CLIP本身和文本语义对齐的特性把SAM提取的结构特征站在全局视角翻译成包含语音信息Latent Tokens用于后续解码器的解码。用SAM“看清”用CLIP“看懂”之后最后就到解码器“讲给我听”论文使用了DeepSeek-3B-MOE总参数是3B但推理时每个token只激活64个专家中的6个对应570M左右的参数。之所以选择MOE也是充分考虑到OCR任务本身的多元性涉及到多语音、多符号公式、图表、多排版而MOE可以根据输入的不同选择不同的专家进行解码。而之所以没有像Qwen使用位置编码因为DeepSeek-OCR还是个单任务模型因此只需要模型在训练过程中学习和原图图像token信息一一对应的文本token信息那SAM的局部信息提取加上从左到右从上到下固定的token拼接顺序再配合CLIP的全局语义理解这是一个三栏排列还是个单栏报纸其实就完全足够了。动态分辨率为了适配不同的下游图片尺寸DeepSeek-OCR对于动态多分辨率设计了两种方案。这里借鉴了InternVL1.5提出的tiling思路。Native Resolution论文预定义了四种分辨率Tiny(512)Small(640), Base(1024), Large(1280)。输入图片会保持原有的长宽比把短边padding到最近的分辨率。Gundam Mode主要针对超高分辨率的长图例如报纸在我的场景中是收集拍照或截图的长图。这时会采用多分辨率组图类似NLP中的chunking逻辑。包括Global View把全图reszie到1024 * 1024提供全局上下文Local View将大图切分成多个640*640的图片快提供局部视野。这里使用了InternVL提供的tiling方案。这样通过GloablLocal的方案让模型既能获取全局排版也能看清局部小字。模型训练DeepSeek-OCR收集处理了海量的相关语料大致涵盖以下三个方向OCR 1.0: 30M的PDF文档有直接用pymuPDF提取的粗标样本也有用MinerU、GOT-OCR精标的样本还有用word反向构建的合成数据来保证公式与表格的准确。注意这里不同质量的样本在训练时会配合使用不同的指令来实现带噪学习。OCR 2.0: 主要覆盖图表、公式、化学方程式等结构化数据。其中包括使用image-to-HTML构建得到的数据。通用文本和图像保证Decoder和CLIP Encoder的通用文本和图像能力的灾难性遗忘使用以上数据论文进行了两阶段的模型训练DeepEncoder预热训练让编码器输出高质量图像Token有点类似先训练embedding层EncoderDecoder联合训练把Encoder模块中的SAM和Compressor参数都冻结只保留CLIP可训练用于和Decoder的文本表征进行对齐。核心发现上下文光学压缩的 Scaling Law通过在 OCR 任务上的实验DeepSeek-OCR 得到了关于视觉信息密度最关键的结论为 LLM 的长期记忆和遗忘机制提供了新的理论依据。10*无损压缩既当文本token/视觉token10COR的解码精准度可以保持在97%。20*优雅遗忘既当文本token/视觉token20OCR的解码准确率仍有60%没有完全遗忘。第一个结论其实是反常识的之前普遍认为图像token的信息密度更低但其实这是对不同体裁图片的差异化认知导致的。而论文论证在当前的文本tokenizer的效果上视觉模态可以成文文本模态的超级压缩格式。而第二个结论其实和超长上文的记忆压缩机制相契合对于超长文档的问答是有可能通过图像token进行信息压缩只保留核心语义信息。imagePart III横向对比多模态 VLM 的不同路线Vary: Scaling up the Vision Vocabulary for Large Vision-Language ModelsQwen2-vl: Enhancing vision-language model’s perception of the world at any resolution.InterVL 1.5: How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites最后我们通过一张表清晰地对比 DeepSeek-OCR 与其他主流 VLLM 在处理高分辨率和 Token 效率上的技术路线差异。image模型 核心 Token 策略 架构拓扑 关键技术 优势与劣势 借鉴DeepSeek-OCR 串行压缩 (Token Deflation) SAM → Conv → CLIP ViT → LLM ViTDet (Window Attn) 16x Conv Compressor 优势Token压缩率最高推理效率最高在文档领域实现 1:10 无损压缩。Qwen2-VL 线性增长 (Token Inflation) ViT → Pooling → LLM Naive Dynamic Resolution M-RoPE (3D 位置编码) 优势保真度高位置感知优秀劣势Token 数量随分辨率线性增长推理昂贵。 不用通用位置编码而借助物理压缩InternVL2 Tiling InternViT (6B) → QLLaMA (8B) → LLM 巨型 ViT Encoder LLaMA-based Adapter 优势视觉基座能力强劣势整体参数量巨大输入VIT分辨率低导致图像分割碎片化token数过高、推理成本极高。 借鉴tilingVary 并行词表扩充 CLIP、SAMConv → Concat Fusion → LLM SAM-based Tiny Vocabulary Parallel Dual-Branch 优势增强文档理解劣势并行结构显存占用大Token 数量是两者之和计算冗余。 借鉴Conv压缩把Vary并行架构改为串行
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

电商网站的流程图设计师网站卡密登录

随着家居智能化的浪潮,越来越多的家庭在装修时开始选择壁挂马桶。相比传统落地式马桶,壁挂马桶不仅在视觉上更显简洁现代,还能有效节省空间。智能化的加持,使其功能更加丰富,不仅提供基本的洁净功能,还可以…

张小明 2026/1/7 11:46:34 网站建设

WordPress制作小说网站莲都区建设局网站

YOLO镜像支持多租户隔离,适合云服务平台 在智能制造、智慧城市和自动驾驶等前沿领域,实时目标检测早已不再是实验室里的概念验证,而是驱动业务运转的核心能力。YOLO 系列模型凭借其“一次推理、全图覆盖”的高效架构,在工业界迅速…

张小明 2026/1/8 0:19:42 网站建设

天津网站建设电焊机邢台县教育局五库建设网站

LangFlow课程大纲自动生成工具开发 在教育科技快速演进的今天,AI正以前所未有的速度重塑教学内容的生产方式。课程设计不再只是教案堆叠和经验复制,而是逐步走向智能化、个性化与高效化。尤其当高校、培训机构面临“新学科快速上线”“跨领域课程融合”等…

张小明 2026/1/7 13:14:54 网站建设

免费模型网站怎么找网站站长

想只清倍频因子位&#xff08;bit8~13&#xff09;、丝毫不碰其他配置&#xff1f;必背底层位操作模板 完整规则解析&#xff0c;新手也能一次搞定&#xff1a;XT_CKCU->COREPLLCFGR & ~(0x3F << 8);一、先掌握 & 核心规则&#xff08;操作的根本逻辑&#x…

张小明 2026/1/4 15:43:36 网站建设

网站开发实训内容私域平台运营分为几个步骤

VMware App Volumes 操作指南与配置详解 1. 创建新虚拟硬盘 在创建新虚拟硬盘时,首先要完成一系列准备工作。当所有配置选项完成后,在“Ready to Complete”框中,仔细回顾已配置的选项,确认无误后点击“Finish”按钮,即可成功创建新的虚拟硬盘。 2. 初始化并格式化新硬…

张小明 2026/1/8 12:47:24 网站建设

制作英文网站案例网站开发前景

数据库迁移革命&#xff1a;5分钟从SQLite到MySQL的零门槛转换 【免费下载链接】sqlite-to-mysql Script to convert and add sqlite3 database into a mysql/mariadb database 项目地址: https://gitcode.com/gh_mirrors/sq/sqlite-to-mysql 还在为数据库迁移发愁吗&am…

张小明 2026/1/9 2:22:13 网站建设