石家庄哪里有做外贸网站的公司,网站代码图片,在欣欣网上做网站效果如何,群晖 wordpress 中文简介
SmolLM是由Hugging Face推出的开源轻量级语言模型系列#xff0c;采用小而精的设计理念#xff0c;在保持极低参数量的同时实现与大型模型相媲美的性能。该系列包括多个版本#xff1a;SmolLM2#xff08;135M、360M、1.7B参数#xff09;、SmolLM3采用小而精的设计理念在保持极低参数量的同时实现与大型模型相媲美的性能。该系列包括多个版本SmolLM2135M、360M、1.7B参数、SmolLM33B参数以及多模态版本SmolVLM专为边缘设备和资源受限环境设计。核心价值极致轻量最小版本仅135M参数占用内存不足300MB可在智能手机等移动设备上流畅运行性能卓越在多项基准测试中超越同级别模型甚至比肩更大参数规模的竞品完全开源Apache 2.0许可证模型权重、训练代码、数据集全部公开多模态支持SmolVLM系列支持图像和文本的多模态理解参数从256M到2.2B不等技术架构SmolLM采用Transformer解码器架构通过分组查询注意力GQA、NoPE位置编码等技术优化在11-11.2万亿token的高质量数据集上训练涵盖网络数据、代码、数学等多个领域。主要功能1. 双模式推理能力SmolLM3引入了创新的双模式推理机制用户可通过系统指令/think和/no_think自由切换两种模式深度思考模式会生成完整的推理过程链适合复杂任务高效响应模式直接输出结果适用于快速问答场景。这种设计让模型既能处理复杂推理任务又能保持快速响应能力。2. 128K超长上下文支持通过NoPE技术和YaRN外推算法SmolLM3支持最高128K的上下文长度能够处理整本书籍、长代码库或跨文档分析任务。相比传统小模型通常只能处理4K-8K上下文这一突破性能力使其在文档理解、代码分析等场景中表现出色。3. 多语言与工具调用SmolLM3原生支持英语、法语、西班牙语、德语、意大利语和葡萄牙语六种语言在XQuAD等多语言基准测试中性能下降率低于同类模型。同时支持XML和Python两种格式的工具调用可无缝集成API工具链实现更复杂的任务自动化。4. 多模态视觉理解SmolVLM系列通过紧凑的视觉编码器与语言模型结合采用像素洗牌Pixel Shuffle技术压缩视觉token数量在保持高性能的同时大幅降低显存占用。最小版本SmolVLM-256M推理时仅需不到1GB显存却能在OCR、图像描述等任务上超越参数量大得多的模型。5. 高效训练策略SmolLM采用三阶段预训练方法第一阶段0-8T tokens建立通用基础能力第二阶段8-10T tokens注入高质量STEM数据第三阶段10-11.2T tokens强化推理与指令跟随。通过精心设计的数据混合比例和训练策略在30亿参数规模下达到领域最佳性能。安装与配置环境要求基础环境Python 3.8或更高版本PyTorch 2.0及以上CUDA 11.8及以上GPU推理内存建议8GB及以上显存SmolLM3-3B需约4GBSmolVLM-256M需约1GB安装步骤方式一使用Transformers库推荐pip install transformers方式二克隆项目仓库git clone https://github.com/huggingface/smollm.git cd smollm pip install -r requirements.txt方式三使用Ollama本地部署# 安装Ollama curl -fsSL https://ollama.ai/install.sh | sh # 拉取模型 ollama pull smollm3-3b模型下载基础模型from transformers import AutoModel, AutoTokenizer model_name HuggingFaceTB/SmolLM3-3B-Base tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModel.from_pretrained(model_name)指令微调模型model_name HuggingFaceTB/SmolLM3-3B多模态模型model_name HuggingFaceTB/SmolVLM-256M配置说明环境变量配置# 设置Hugging Face Hub缓存目录 export HUGGINGFACE_HUB_CACHE/path/to/cache # 设置模型下载镜像国内用户 export HF_ENDPOINThttps://hf-mirror.com推理配置from transformers import pipeline # 创建文本生成管道 pipe pipeline( text-generation, modelHuggingFaceTB/SmolLM3-3B, devicecuda:0, # 使用GPU torch_dtypetorch.float16, # 半精度推理 max_new_tokens512 )如何使用基础文本生成单轮对话from transformers import AutoModelForCausalLM, AutoTokenizer model_name HuggingFaceTB/SmolLM3-3B tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained(model_name).to(cuda) prompt 请用中文解释一下什么是人工智能 inputs tokenizer(prompt, return_tensorspt).to(cuda) outputs model.generate(**inputs, max_new_tokens200) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))多轮对话messages [ {role: system, content: 你是一个有帮助的AI助手}, {role: user, content: 请帮我写一首关于春天的诗} ] formatted_prompt tokenizer.apply_chat_template(messages, tokenizeFalse) inputs tokenizer(formatted_prompt, return_tensorspt).to(cuda) outputs model.generate(**inputs, max_new_tokens256) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))双模式推理快速响应模式messages [ {role: system, content: /no_think}, {role: user, content: 计算三角形的面积底边为5高为3} ]深度思考模式messages [ {role: system, content: /think}, {role: user, content: 证明勾股定理} ]多模态推理图像描述from transformers import AutoProcessor, AutoModelForVision2Seq model_name HuggingFaceTB/SmolVLM-256M processor AutoProcessor.from_pretrained(model_name) model AutoModelForVision2Seq.from_pretrained(model_name).to(cuda) # 加载图像 image Image.open(example.jpg) inputs processor(imagesimage, text描述这张图片, return_tensorspt).to(cuda) outputs model.generate(**inputs) print(processor.decode(outputs[0], skip_special_tokensTrue))命令行使用使用Ollama# 启动服务 ollama serve # 与模型交互 ollama run smollm3-3b 请帮我写一篇关于机器学习的文章使用Transformers CLIpython -m transformers-cli run \ --model HuggingFaceTB/SmolLM3-3B \ --task text-generation \ --input 请用中文回答什么是深度学习应用场景实例实例1移动端智能助手场景描述移动应用需要集成AI助手功能但传统大模型在手机端运行困难云端调用存在延迟和隐私问题。解决方案使用SmolLM-135M模型在手机端本地部署仅占用280MB存储空间响应延迟控制在300ms以内单次对话电量消耗仅为云端调用的5%。用户可在离线状态下使用智能问答、文本生成等功能数据完全本地处理彻底解决隐私泄露风险。实施效果实现全离线运行不受网络波动影响隐私数据无需上传云端安全性大幅提升响应速度快用户体验流畅降低运营成本无需支付云端API调用费用实例2边缘计算AI应用场景描述工业物联网设备需要实时处理传感器数据并生成分析报告但设备计算资源有限无法部署大型AI模型。解决方案在边缘设备上部署SmolLM-360M模型实时分析设备运行数据生成故障预警报告。模型在百元级嵌入式设备上流畅运行日均处理300万次请求实现24小时不间断监控。实施效果实时响应延迟低于500ms设备成本降低80%无需高性能GPU支持离线运行网络故障不影响服务数据本地处理符合工业数据安全要求实例3教育科技智能辅导场景描述教育机构需要为偏远地区学生提供个性化辅导但网络条件差无法使用云端AI服务。解决方案基于SmolLM2-360M开发离线智能辅导系统在平板电脑上本地部署为50万学生提供24小时作业辅导。系统支持多学科问答、解题步骤展示、知识点讲解等功能在百元级设备上流畅运行。实施效果教育资源覆盖12个经济欠发达地区学生获得优质辅导服务教育公平性提升系统运行成本低适合大规模推广支持多语言满足不同地区需求实例4企业文档智能分析场景描述企业需要分析大量合同、报告等文档但传统方式耗时耗力且涉及敏感数据无法上传云端。解决方案使用SmolLM3-3B的128K长上下文能力在本地服务器上部署文档分析系统。系统可一次性处理整本合同提取关键条款、识别风险点、生成摘要报告支持中英文混合文档。实施效果文档处理效率提升10倍支持超长文档分析无需分段处理数据本地处理符合企业安全要求支持多轮对话可进行深入问答实例5多语言客服系统场景描述跨国企业需要为全球客户提供多语言客服支持但部署多套系统成本高维护复杂。解决方案使用SmolLM3的多语言能力部署统一的智能客服系统支持英语、法语、西班牙语、德语、意大利语和葡萄牙语六种语言。系统可自动识别用户语言提供相应服务大幅降低多语言客服成本。实施效果客服成本降低60%支持7×24小时服务响应速度快多语言统一管理维护简单支持工具调用可集成业务系统实例6代码辅助开发场景描述开发者需要代码生成和调试辅助工具但现有工具响应慢且需要联网使用。解决方案在IDE中集成SmolLM3-3B模型提供本地代码补全、错误检测、代码解释等功能。模型支持多种编程语言可生成代码片段并解释逻辑帮助开发者提高编程效率。实施效果代码生成速度提升5倍支持离线使用保护代码隐私提供深度思考模式展示完整推理过程降低开发工具订阅成本GitHub地址项目地址https://github.com/huggingface/smollm模型仓库SmolLM2https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9SmolLM3https://huggingface.co/HuggingFaceTB/SmolLM3-3BSmolVLMhttps://huggingface.co/blog/smolvlm技术文档官方博客https://huggingface.co/blog/smollm3论文地址https://arxiv.org/abs/2504.05299SmolVLM在线演示WebGPU演示https://huggingface.co/spaces/HuggingFaceTB/SmolLM-135M-Instruct-WebGPU多模态演示https://huggingface.co/spaces/HuggingFaceTB/SmolVLM快速开始访问GitHub仓库给项目点个Star支持安装Transformers库pip install transformers下载模型from transformers import AutoModel; model AutoModel.from_pretrained(HuggingFaceTB/SmolLM3-3B)开始使用参考官方文档和示例代码注意事项首次使用需要下载模型权重建议使用国内镜像加速生产环境部署建议使用Ollama或vLLM等推理引擎多模态模型需要额外安装vision相关依赖建议定期检查更新获取最新功能和性能优化