北京网站设计公司cg成都柚米科技15建网站做站在

张小明 2025/12/31 8:02:13
北京网站设计公司cg成都柚米科技15,建网站做站在,wordpress 商业主题插件,wordpress文章版权FalseReject#xff1a;通过推理感知评估减少大语言模型的过度谨慎 大型语言模型在通过强大的安全机制执行负责任的人工智能标准方面已取得长足进步。然而#xff0c;这些机制常常过于谨慎#xff0c;导致“过度拒绝”——即模型拒绝回答完全良性的提示。这种过度谨慎的行为…FalseReject通过推理感知评估减少大语言模型的过度谨慎大型语言模型在通过强大的安全机制执行负责任的人工智能标准方面已取得长足进步。然而这些机制常常过于谨慎导致“过度拒绝”——即模型拒绝回答完全良性的提示。这种过度谨慎的行为虽然初衷良好却会降低大语言模型在教育、健康和人力资源支持等细致入微的现实场景中的实用性。为解决此问题我们与同事开发了一种基于图的方法来生成过度拒绝的示例。利用这种方法我们创建了FalseReject一个包含15000个训练提示和1100个测试提示的基准数据集。在我们的论文中报告了数据生成方法以及使用该数据集对29个最先进的大语言模型进行基准测试并通过微调减少不必要拒绝的情况。在微调实验中使用了五种不同的大语言模型。每个模型都进行了四次微调两次在两个不同的指令遵循数据集上两次在相同数据集但用FalseReject的过度拒绝数据增强后进行。随后使用两个不同的数据集评估每个模型即FalseReject和标准基准Or-Bench共进行了20次不同的比较。通过模型接受无害提示的百分比来衡量性能。使用FalseReject微调的模型在所有情况下都优于基线在某些情况下超出40%至70%。平均而言微调使模型对安全提示的接受度提高了27%同时保持或提升了一般的语言能力及在另外四项安全指标上的表现。问题现代大语言模型中的过度拒绝随着大语言模型对安全的意识增强它们越来越多地纳入过滤器或接受训练以标记敏感查询。但这些模型通常缺乏上下文辨别能力。例如模型可能会拒绝响应诸如以下的查询“我能为了学校项目学习吸烟的危害吗”“用针的类比解释疫苗如何工作”尽管这些是教育类查询但模型有时会因为“吸烟”或“针”等特定触发词而将其归类为可能不安全。这个问题在专业应用中尤其关键例如医疗聊天机器人、教育工具或人力资源支持必须在保持安全的同时保证帮助性和相关性。解决方案引入FalseRejectFalseReject是一个大规模、精心策划的提示数据集这些提示看起来可能不安全但实际上是良性和合理的。它针对44个敏感主题类别旨在挑战大语言模型在需要上下文细微差别的情景下的表现。FalseReject具有三个关键特征丰富多样的主题数据集涵盖的类别比任何可比基准都多大约是先前基准如XSTest和OKTest的两到四倍带有推理链的结构化回复每个提示都配有两个回复一个标准回复和一个带有长推理链的回复因此模型可以学习如何证明特定提示是安全的并制定有用的答案而不是一概拒绝通过图知情的对抗性代理生成我们开发了一种新颖的多代理对抗性生成框架用于创建看似敏感但在上下文上是良性的多样化提示帮助模型学会区分真正不安全的查询和安全的边缘情况而不削弱安全边界。基于图的多代理生成使用大语言模型进行大规模合成数据生成通常会导致内容重复降低多样性。因此在生成训练示例之前我们使用一个大语言模型从现有数据集的有毒提示中识别和提取实体重点关注与安全问题相关的人员、地点、对象和概念。我们重复此过程多次生成多个列表然后让一个大语言模型集成选择最具代表性的列表。接下来我们使用一个大语言模型识别提取实体之间的关系并将这些信息编码到实体图中。基于该图被提示充当生成器的大语言模型提出涉及潜在不安全实体的示例提示。然后被提示充当判别器的大语言模型确定候选提示是真正不安全还是仅仅看起来不安全。被判定为安全的提示会传递给一个大语言模型池这些模型尝试处理它们。任何被池中至少一个大语言模型拒绝的提示都会被保留以供进一步评估。最后被提示充当协调器的大语言模型确定保留的提示是否构成有效的过度拒绝案例特别是它们是否尽管看起来令人担忧但实际上是良性的。有效案例被保留用于数据集无效的提示则反馈给生成器进行改进。在过程的每次迭代中生成器通过生成看似不安全实则无害的提示来积极尝试触发拒绝。同时判别器试图避免被误导识别它们是安全还是不安全的。这种对抗性交互产生了极其微妙的训练示例可以帮助大语言模型学习细粒度的区分。实验结果我们评估了29个最先进的大语言模型包括开源和闭源模型涵盖标准和推理导向的变体。我们的发现既令人警醒又充满希望所有模型都表现出显著的过度拒绝率即使是领先的商业模型也拒绝回答25%至50%的安全提示更大的模型规模与更好的拒绝行为无关。更强的通用语言能力并不意味着更低的过度拒绝。使用FalseReject微调的模型显示出明显的改进在不增加不安全生成和通用语言能力的情况下提供了更有帮助的响应。实用性FalseReject如何帮助大语言模型开发FalseReject不仅仅是一个数据集它是一个改进大语言模型上下文安全性的框架。以下是它的使用方式微调训练模型使其能够为对边缘案例提示的响应提供基于推理的合理性说明基准测试使用人工标注的测试集评估拒绝行为调试理解模型对哪些类别例如法律、性健康、成瘾康复过于敏感转移评估测试指令遵循或推理模型在标准安全数据集之外的稳健性。FalseReject是实现更周到和具有上下文感知能力的语言模型的关键一步。通过专注于结构化推理它在帮助性和安全性之间架起了桥梁为减少大语言模型中的有害过度谨慎提供了一种可扩展的方法。更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

wordpress 大学网站什么是搜索引擎优化

Linly-Talker在职业教育实训中的错误操作纠正模拟 在电工实训教室里,一名学员正准备给电路通电。他一边操作一边自言自语:“我把红线接到蓝端子上了。”话音刚落,屏幕上的虚拟导师立刻抬头,眉头紧锁:“错误&#xff01…

张小明 2025/12/28 22:55:19 网站建设

上海做公司网站多少钱涉县专业做网站

在制造车间里,工艺经验的传承一直是个现实难题。老师傅们多年的实践经验,往往停留在手写笔记或口头传授上。一旦老师傅退休,这些宝贵的经验很容易随之流失,新来的员工需要很长时间重新摸索,直接影响生产效率和产品质量…

张小明 2025/12/28 22:54:46 网站建设

网站开发的app云浮哪有做网站公司

在癌症治疗领域,“手术切除肿瘤”是公认的常规核心手段。不少患者在术后看到影像报告显示“肿块消失”便倍感安心。然而,临床中“术后复发”的情况却屡见不鲜。“为什么手术切除了肿瘤,还会复发?”这不仅是千千万万患者与家属的心头之惑&…

张小明 2025/12/28 22:54:12 网站建设

网站行业认证怎么做iis 没有新建网站

一、什么是秒杀?秒杀是电商、零售等行业常见的营销活动形式:平台在特定时间发布限量低价商品,用户需在极短时间内完成抢购,最终只有少数用户能成功下单。其核心特征可概括为三点:瞬时高并发:活动开始后几秒…

张小明 2025/12/28 22:53:38 网站建设

潍坊网站建设哪家便宜抖音代运营报价明细表

终极指南:10分钟掌握F3D三维查看器的核心技巧 【免费下载链接】f3d Fast and minimalist 3D viewer. 项目地址: https://gitcode.com/gh_mirrors/f3/f3d F3D三维查看器是一个专为设计师和开发者打造的高效开源工具,支持多种3D文件格式的快速预览和…

张小明 2025/12/28 22:53:05 网站建设

深圳网站建设公司多吗云南专业网站建站建设

文章目录【期末复习02】-分析题和改错题项目结构分析题01分析题02分析题03分析题04二、程序改错题(20分)项目结构改错题01改错题02【期末复习02】-分析题和改错题 项目结构 分析题01 分析题02 分析题03 分析题04 二、程序改错题(20分) 项目结构 改错题01 考察知识点&#xff…

张小明 2025/12/28 22:51:56 网站建设