做网站域名是怎么回事wordpress文章链接自定义-吉安市网站建设公司-Seo优化

做网站域名是怎么回事,wordpress文章链接自定义,chatgpt网页,2015网站备案没下来文章全面介绍大语言模型评测指标类型、选择方法及应用场景。讨论统计评分器、G-Eval、DAG评分器等不同评测方法#xff0c;针对RAG系统、微调模型等提供评测指标指导#xff0c;并介绍DeepEval框架实现方法。强调应根据应用场景选择合适指标#xff0c;准确量化LLM性能…文章全面介绍大语言模型评测指标类型、选择方法及应用场景。讨论统计评分器、G-Eval、DAG评分器等不同评测方法针对RAG系统、微调模型等提供评测指标指导并介绍DeepEval框架实现方法。强调应根据应用场景选择合适指标准确量化LLM性能构建稳健评估流程。尽管评测大型语言模型LLMs的输出对于任何希望部署稳健 LLM 应用的人来说都至关重要但 LLM 评测对许多人而言仍是一项挑战性任务。无论你是通过微调提升模型准确性还是增强检索增强生成RAG系统的上下文相关性了解如何为你的用例开发和选定合适的 LLM 评测指标集对于构建坚不可摧的 LLM 评测流程至关重要。本文将带你全面了解 LLM 评测指标并附代码示例。我们将深入探讨• 什么是LLM评测指标它们如何用于评测LLM系统常见的误区以及优秀LLM评测指标的特质。• 所有评分LLM评测指标的不同方法以及为何LLM评委最适合LLM评测。• 如何利用LLM评委为你的LLM指标创建确定性、基于决策的评分器。• 如何通过 DeepEval在代码中实现并决定使用哪一组LLM评测指标。https://github.com/confident-ai/deepeval什么是LLM评测指标LLM评测指标如答案正确性、语义相似度和幻觉程度是根据你关心的标准对LLM系统输出进行评分的指标。它们对LLM评测至关重要有助于量化不同LLM系统的性能而LLM本身也可以作为评测对象。一种LLM评测指标架构在将你的LLM系统投入生产环境前以下是你最可能需要的重要且常见指标答案相关性判断LLM的输出是否能以信息丰富且简洁的方式回应给定输入。提示对齐判断LLM输出是否能遵循提示模板中的指令。正确性基于某些基准事实判断LLM的输出是否在事实上正确。幻觉判断LLM的输出是否包含虚假或捏造的信息。上下文相关性判断基于 RAG 的LLM系统中的检索器能否为你的LLM提取最相关的信息作为上下文。责任度量包括偏见和毒性等指标用于判断LLM的输出是否包含通常有害和冒犯性内容。任务特定指标包括诸如摘要等指标通常根据具体用例包含自定义标准。虽然大多数指标是通用且必要的但它们不足以针对特定用例。这就是为什么你至少需要一个自定义的任务特定指标以使你的LLM评测流程具备生产准备就绪性如后续在 G-Eval 和 DAG 部分所见。例如如果你的LLM应用旨在总结新闻文章页面你将需要一个自定义的LLM评测指标其评分基于摘要是否包含原文足够的信息。摘要是否与原文存在矛盾或虚构内容。此外如果你的LLM应用采用了基于 RAG 的架构你可能还需要对检索上下文的质量进行评分。关键在于LLM评测指标是根据应用设计执行的任务来评测LLM应用的。请注意LLM应用可以仅仅是LLM本身优秀的评测指标应具备以下特点可量化。指标在评测当前任务时必须能计算出分数。这种方法让你能够设定一个最低通过阈值以判断你的LLM应用是否“足够好”并随着实现的迭代改进监控这些分数随时间的变化。可靠。尽管LLM的输出可能难以预测但最不希望的是LLM评测指标同样不可靠。因此虽然使用LLMs又称LLM评委或LLM评测评测的指标如 G-Eval特别是对于 DAG比传统评分方法更准确但它们往往不一致这正是大多数LLM评测的不足之处。准确。如果可靠的分数不能真实反映你的LLM应用性能那么它们就毫无意义。事实上让一个好的LLM评测指标变得出色的秘诀在于尽可能使其与人类期望保持一致。因此问题变成了LLM评测指标如何计算出可靠且准确的分数计算指标分数的不同方法我提到过LLM输出因其难以评测而臭名昭著。幸运的是现有多种成熟的方法可用于计算指标分数——有些利用了神经网络包括嵌入模型和LLMs而另一些则完全基于统计分析。指标评分器的类型我们将逐一探讨每种方法并在本节末尾讨论最佳实践请继续阅读以了解详情统计评分器在开始之前我想先说明在我看来统计评分方法并非必须掌握的内容所以如果你时间紧迫可以直接跳到“G-Eval”部分。这是因为统计方法在需要推理时表现不佳作为评分器对大多数LLM评测标准来说过于不准确。快速浏览一下• BLEU双语评测替补评分器通过将你的LLM应用程序输出与标注的真实值或预期输出进行对比来评测其表现。它计算LLM输出与预期输出之间每个匹配 n 元语法n 个连续单词的精确度进而计算它们的几何平均值并在必要时应用简短惩罚。• ROUGE面向召回率的摘要评测替代指标评分器主要用于评测 NLP 模型生成的文本摘要通过比较LLM输出与预期输出之间 n-gram 的重叠来计算召回率。它确定参考摘要中 n-gram 在LLM输出中出现的比例0 到 1 之间。• METEOR显式排序翻译评测指标评分器更为全面它通过评测精确度n-gram 匹配和召回率n-gram 重叠来计算分数并根据LLM输出与预期输出之间的词序差异进行调整。该评分器还利用 WordNet 等外部语言数据库来考虑同义词。最终分数是精确度和召回率的调和平均数并对顺序差异施加惩罚。• 莱文斯坦距离或称编辑距离你可能在 LeetCode 上将其视为一道困难的动态规划问题评分器计算将一个单词或文本字符串转换为另一个所需的最少单字符编辑插入、删除或替换次数这对于评测拼写纠正或其他字符精确对齐至关重要的任务非常有用。由于纯统计评分器几乎不考虑任何语义且推理能力极其有限它们对于评测通常较长且复杂的LLM输出来说不够准确。基于模型的评分器纯统计性质的评分器虽然可靠但不精确因为它们难以将语义因素纳入考量。本节讨论的情况则相反——完全依赖自然语言处理模型的评分器相对更准确但由于其概率特性也更为不可靠。这并不令人意外但非基于LLM的评分器表现不如LLM作为评委原因同样在于统计评分器所面临的困境。非LLM评分器包括• NLI 评分器采用自然语言推理模型一种自然语言处理分类模型用于判断LLM输出相对于给定参考文本是否逻辑一致蕴含、矛盾或无关中立。其评分范围通常在蕴含值为 1与矛盾值为 0之间以此衡量逻辑连贯性。• BLEURT基于 Transformer 表示的双语评测替代评分器利用如 BERT 这样的预训练模型来对LLM输出与预期输出进行评分。除了评分不一致的问题实际情况是这些方法存在若干缺陷。例如自然语言推理NLI评分器在处理长文本时也可能面临准确性挑战而 BLEURT 则受限于其训练数据的质量与代表性。G-EvalG-Eval 是近期在一篇题为“利用 GPT-4 进行 NLG 评测以实现更佳人类对齐”的论文中提出的框架它采用LLMs来评测LLM输出又称LLM-Evals是创建任务特定指标的最佳方法之一。G-Eval 算法G-Eval 首先通过思维链CoTs生成一系列评测步骤然后利用这些生成的步骤通过表单填写范式这不过是 G-Eval 需要多条信息才能工作的另一种说法来确定最终分数。例如使用 G-Eval 评测LLM输出的连贯性时需要构建一个包含评测标准和待评文本的提示来生成评测步骤之后再由LLM根据这些步骤输出 1 到 5 的评分。让我们通过这个例子来走一遍 G-Eval 算法。首先生成评测步骤向你选择的LLM引入一个评测任务例如根据连贯性对此输出进行 1 到 5 的评分为你的标准给出定义例如“连贯性——实际输出中所有句子的集体质量”。请注意在原 G-Eval 论文中作者仅使用了 GPT-3.5 和 GPT-4 进行实验且我个人尝试过多种LLMs用于 G-Eval 后强烈建议你坚持使用这些模型。生成一系列评测步骤后通过将评测步骤与你评测步骤中列出的所有参数拼接起来创建提示例如如果你想评测LLM输出的连贯性那么LLM输出将是必需的参数。在提示的末尾要求其生成一个 1 到 5 之间的分数其中 5 优于 1。可选从LLM获取输出标记的概率以标准化分数并将它们的加权求和作为最终结果。第三步是可选的因为要获取输出词元的概率你需要访问原始模型嵌入而这并非所有模型接口都能保证提供。不过论文中引入此步骤是因为它能提供更细粒度的分数并最小化LLM评分中的偏差如论文所述在 1-5 的量表中3 被认为具有更高的词元概率。以下是论文中的结果展示了 G-Eval 如何优于本文前面提到的所有传统非LLM评测方法更高的斯皮尔曼和肯德尔-陶相关系数表示与人类判断有更高的一致性。G-Eval 之所以卓越在于作为LLM-Eval它能全面考量LLM输出的语义从而显著提升准确性。这一设计理念极为合理——试想那些非LLM的评测工具其评分机制远不及LLMs强大又怎能真正理解LLMs生成文本的全部内涵尽管 G-Eval 相较于同类工具与人类判断的一致性更高但其评分仍可能不够可靠因为依赖LLM来生成分数本质上仍具有不可回避的主观性。话虽如此鉴于 G-Eval 评测标准的灵活性我个人已将 G-Eval 实现为 DeepEval 的一个指标——这是我正在开发的一个开源LLM评测框架其中包含了原论文中的标准化技术。# Installpip install deepeval# Set OpenAI API key as env variableexport OPENAI_API_KEY... plaintext from deepeval.test_case import LLMTestCase, LLMTestCaseParamsfrom deepeval.metrics import GEvaltest_case LLMTestCase(inputinput to your LLM, actual_outputyour LLM output)coherence_metric GEval( nameCoherence, criteriaCoherence - the collective quality of all sentences in the actual output, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT],)coherence_metric.measure(test_case)print(coherence_metric.score)print(coherence_metric.reason)使用LLM-Eval 的另一大优势在于LLMs能够为其评测分数生成理由。DAG有向无环图在涉及主观性的评测场景中G-Eval 表现卓越。然而当存在明确成功标准时你会倾向于使用基于决策的打分器。设想这样一个场景你有一个文本摘要应用案例需要在医院环境中格式化患者的病史记录。摘要中需包含多个标题并按正确顺序排列仅当所有格式均无误时才能给予满分。在此类约束条件组合下期望得分极为明确的情况下DAG 打分器堪称完美选择。顾名思义DAG深度无环图评分器是一个由LLM作为评判驱动的决策树其中每个节点代表一个LLM判断每条边则对应一项决策。最终根据所采取的评测路径会返回一个预设的硬编码分数当然你也可以选择使用 G-Eval 作为叶节点来返回分数。通过将评测拆解为细粒度步骤我们实现了确定性。DAG 的另一应用场景是过滤掉那些连基本评测要求都未满足的边缘案例比如回到我们的摘要示例中这意味着格式错误的情况。此时你往往会发现自己在使用 G-Eval 而非硬编码分数作为叶节点来返回结果。这里有一个用于文本摘要的 DAG 架构示例DAG 评分器架构这里是 DeepEval 中对应的代码from deepeval.test_case import LLMTestCasefrom deepeval.metrics.dag import( DeepAcyclicGraph, TaskNode, BinaryJudgementNode, NonBinaryJudgementNode, VerdictNode,)from deepeval.metrics importDAGMetriccorrect_order_node NonBinaryJudgementNode( criteriaAre the summary headings in the correct order: intro body conclusion?, children[ VerdictNode(verdictYes, score10), VerdictNode(verdictTwo are out of order, score4), VerdictNode(verdictAll out of order, score2), ],)correct_headings_node BinaryJudgementNode( criteriaDoes the summary headings contain all three: intro, body, and conclusion?, children[ VerdictNode(verdictFalse, score0), VerdictNode(verdictTrue, childcorrect_order_node), ],)extract_headings_node TaskNode( instructionsExtract all headings in actual_output, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT], output_labelSummary headings, children[correct_headings_node, correct_order_node],)# create the DAGdag DeepAcyclicGraph(root_nodes[extract_headings_node])# create the metricformat_correctness DAGMetric(nameFormat Correctness, dagdag)# create a test casetest_case LLMTestCase(inputyour-original-text, actual_outputyour-summary)# evaluateformat_correctness.measure(test_case)print(format_correctness.score, format_correctness.reason)DAG 指标是目前可定制性最高的指标我构建它是为了涵盖许多边缘情况这些情况未被流行指标如答案相关性、忠实度甚至自定义指标如 G-Eval 所覆盖。普罗米修斯普罗米修斯是一个完全开源的LLM在提供适当的参考资料参考答案、评分标准时其评测能力可与 GPT-4 相媲美。它同样不限定具体使用场景类似于 G-Eval。普罗米修斯是以 Llama-2-Chat 为基础模型并在反馈收集系统中基于 10 万条由 GPT-4 生成的反馈数据微调而成的语言模型。以下是普罗米修斯研究论文中的简要结果。为何未选择 GPT-4 或 Prometheus 的反馈而选择了另一种。Prometheus 生成的反馈较少抽象和笼统但往往过于苛刻。Prometheus 遵循与 G-Eval 相同的原则但存在几点差异G-Eval 是一个使用 GPT-3.5/4 的框架而 Prometheus 是专为评测LLM微调的模型。G-Eval 通过思维链生成评分标准/评测步骤而 Prometheus 的评分标准则直接由提示提供。Prometheus 需要参考/示例评测结果。虽然我个人尚未尝试过但 Prometheus 已在 Hugging Face 上可用。我之所以没有尝试实现它是因为 Prometheus 的设计初衷是让评测开源化而非依赖如 OpenAI 的 GPTs 这类专有模型。对于致力于打造最佳LLM-Evals 的人来说它并不合适。结合统计与基于模型的评分器至此我们已经了解到统计方法可靠但不精确而非LLM基于模型的方法虽不那么可靠却更为准确。与前一节类似存在诸如以下非LLM评分器• BERTScore 评分器它依赖于 BERT 等预训练语言模型计算参考文本与生成文本中词语上下文嵌入的余弦相似度。这些相似度随后被聚合以产生最终分数。BERTScore 越高表明LLM输出与参考文本间的语义重叠程度越大。• MoverScore 评分器它首先使用嵌入模型特别是如 BERT 这样的预训练语言模型获取参考文本和生成文本的深度上下文词嵌入然后利用所谓的地球移动距离EMD来计算将LLM输出中的词语分布转换为参考文本中词语分布所需支付的最小成本。BERTScore 和 MoverScore 评分器由于依赖如 BERT 这类预训练模型的上下文嵌入易受上下文感知和偏见影响。那么LLM-Evals 呢GPTScore与 G-Eval 直接通过填表范式执行评测任务不同GPTScore 采用生成目标文本的条件概率作为评测指标。GPTScore 算法SelfCheckGPT 是个独特的存在。它是一种基于简单采样的方法用于验证LLM的输出。该方法假设幻觉输出不可复现而如果LLM对某个概念有所了解采样得到的回应则可能相似且包含一致的事实。SelfCheckGPT 之所以引人注目是因为它将幻觉检测变成了一个无需参考的过程这在实际生产环境中极为实用。SelfCheckGPT 算法然而尽管你会注意到 G-Eval 和 Prometheus 是用途无关的但 SelfCheckGPT 并非如此。它仅适用于幻觉检测而不适用于评测其他用例如摘要、连贯性等。QAG 分数QAG问题答案生成分数是一种评分器利用LLMs的高推理能力可靠地评测LLM的输出。它通过封闭式问题可生成或预设的答案通常是“是”或“否”来计算最终指标分数。其可靠性在于它不直接使用LLMs生成分数。例如若要计算忠实度分数衡量LLM输出是否存在幻觉你需要使用LLM提取LLM输出中提出的所有主张。对于每项声明询问事实真相是否同意该声明‘是’或‘否’。因此对于此示例LLM输出马丁·路德·金这位著名的民权领袖于 1968 年 4 月 4 日在田纳西州孟菲斯的洛林汽车旅馆遇刺身亡。他当时在孟菲斯支持罢工的环卫工人站在汽车旅馆二楼阳台时被逃犯詹姆斯·厄尔·雷开枪击中致命。一项声明可能是马丁·路德·金于 1968 年 4 月 4 日遇刺身亡相应的封闭式问题可以是马丁·路德·金是在 1968 年 4 月 4 日被暗杀的吗接着你会拿这个问题去验证事实是否与主张相符。最终你将得到一系列“是”与“否”的答案通过这些答案你可以用自选的数学公式计算出一个分数。在忠实度这一指标上若将其定义为大语言模型LLM输出中与客观事实相符的准确陈述所占比例其计算方式可通过以下步骤实现将LLM生成的准确真实陈述数量除以输出总陈述数。由于我们并非直接使用LLM生成评分结果而是充分发挥其卓越的推理能力进行判断最终获得的评分兼具精确性与可信度。选择你的评测指标选择使用哪种LLM评测指标取决于你的LLM应用场景和架构。例如如果你基于 OpenAI 的 GPT 模型构建一个 RAG 驱动的客户支持聊天机器人你将需要使用多种 RAG 指标如忠实度、答案相关性、上下文精确度而如果你正在微调自己的 Mistral 7B 模型则需要诸如偏见度等指标以确保LLM决策的公正性。在这最后一节中我们将介绍你必须了解的评测指标。额外附赠每项指标的实现方法。RAG 指标对于那些还不了解 RAG检索增强生成是什么的人这里有一篇很好的读物。简而言之RAG 作为一种方法通过补充额外上下文来为LLMs生成定制化输出非常适合构建聊天机器人。它由两个组件组成——检索器和生成器。典型的 RAG 架构RAG 工作流程通常如下运作你的 RAG 系统接收到输入。检索器利用此输入在知识库现今多数情况下为向量数据库中执行向量搜索。生成器结合检索到的上下文与用户输入作为额外信息生成定制化输出。记住一点——高质量的LLM输出是优秀检索器和生成器共同作用的产物。因此优质的 RAG 指标专注于以可靠且准确的方式评测你的 RAG 检索器或生成器。实际上RAG 指标最初设计为无参考指标这意味着它们不需要真实标签甚至在生产环境中也能使用。忠实性忠实性是 RAG 的一项评测指标用于衡量 RAG 流程中的LLM/生成器是否产生与检索上下文信息事实相符的LLM输出。但我们应该选用哪种评分器来度量忠实性呢剧透预警QAG 评分器是 RAG 指标的最佳选择因其在目标明确的任务评测中表现卓越。对于忠实性若将其定义为LLM输出中相对于检索上下文真实声明的比例我们可通过以下算法使用 QAG 计算忠实性使用LLMs提取输出中提出的所有声明。对于每个声明检查其是否与检索上下文中的每个独立节点一致或矛盾。此时QAG 中的封闭式问题将类似于“给定声明是否与参考文本一致”其中“参考文本”为每个独立检索到的节点。注意答案需限定为‘是’、‘否’或‘不知道’。‘不知道’状态代表检索上下文不包含相关信息以给出肯定或否定答案的边缘情况。累加所有真实声明的数量‘是’和‘不知道’然后除以提出的声明总数。该方法通过利用LLM的高级推理能力确保准确性同时避免LLM生成分数的不可靠性使其成为优于 G-Eval 的评分方法。如果你觉得实现起来太复杂可以使用 DeepEval。这是我构建的一个开源包提供了LLM评估所需的所有评估指标包括忠实度指标。# Installpip install deepeval# Set OpenAI API key as env variableexport OPENAI_API_KEY... plaintext from deepeval.metrics import FaithfulnessMetricfrom deepeval.test_case import LLMTestCasetest_caseLLMTestCase( input..., actual_output..., retrieval_context[...])metric FaithfulnessMetric(threshold0.5)metric.measure(test_case)print(metric.score)print(metric.reason)print(metric.is_successful())DeepEval 将评估视为测试用例。这里actual_output 就是你的LLM输出。此外faithfulness 是一个LLM-Eval你能够获得最终计算得分的推理过程。答案相关性答案相关性是一项 RAG 指标用于评测你的 RAG 生成器是否输出简洁的答案其计算方法为确定输出中与输入相关的句子比例即用相关句子数除以总句子数。构建一个健壮的答案相关性指标的关键在于考虑检索上下文因为额外的上下文可能证明一个看似不相关的句子实际上是相关的。以下是答案相关性指标的一个实现from deepeval.metrics import AnswerRelevancyMetricfrom deepeval.test_case import LLMTestCasetest_caseLLMTestCase( input..., actual_output..., retrieval_context[...])metric AnswerRelevancyMetric(threshold0.5)metric.measure(test_case)print(metric.score)print(metric.reason)print(metric.is_successful())记住我们所有的 RAG 指标都使用 QAG上下文精确度上下文精确度是评测 RAG 流程中检索器质量的一项指标。谈及上下文相关指标时我们主要关注检索上下文的相关性。高上下文精确度得分意味着检索上下文中相关的节点排名高于不相关的节点。这一点至关重要因为LLMs对检索上下文中较早出现的节点信息赋予更高权重从而影响最终输出的质量。from deepeval.metrics import ContextualPrecisionMetricfrom deepeval.test_case import LLMTestCasetest_caseLLMTestCase( input..., actual_output..., # Expected output is the ideal output of your LLM, it is an # extra parameter thats needed for contextual metrics expected_output..., retrieval_context[...])metric ContextualPrecisionMetric(threshold0.5)metric.measure(test_case)print(metric.score)print(metric.reason)print(metric.is_successful())上下文召回率上下文精确度是用于评测检索增强生成器RAG的附加指标。其计算方式为确定预期输出或基准事实中可归因于检索上下文节点的句子比例。分数越高表明检索信息与预期输出之间的契合度越高意味着检索器能有效获取相关且准确的内容协助生成器产出符合上下文的恰当响应。from deepeval.metrics import ContextualRecallMetricfrom deepeval.test_case import LLMTestCasetest_caseLLMTestCase( input..., actual_output..., # Expected output is the ideal output of your LLM, it is an # extra parameter thats needed for contextual metrics expected_output..., retrieval_context[...])metric ContextualRecallMetric(threshold0.5)metric.measure(test_case)print(metric.score)print(metric.reason)print(metric.is_successful())上下文相关性上下文相关性可能是最易理解的指标它简单地衡量检索上下文中与给定输入相关的句子所占比例。from deepeval.metrics import ContextualRelevancyMetricfrom deepeval.test_case import LLMTestCasetest_caseLLMTestCase( input..., actual_output..., retrieval_context[...])metric ContextualRelevancyMetric(threshold0.5)metric.measure(test_case)print(metric.score)print(metric.reason)print(metric.is_successful())微调指标当我说“微调指标”时实际指的是评测LLM本身的指标而非整个系统。抛开成本和性能优势不谈LLMs通常被微调以实现以下两个目的之一融入额外的上下文知识。调整其行为。幻觉一些人可能会认出这与忠实度指标相同。尽管相似但在微调中的幻觉问题更为复杂因为通常难以精确确定某一输出的真实基准。为解决这一问题我们可以利用 SelfCheckGPT 的零样本方法来抽样分析LLM输出中幻觉句子的比例。from deepeval.metrics import HallucinationMetricfrom deepeval.test_case import LLMTestCasetest_caseLLMTestCase( input..., actual_output..., # Note that context is not the same as retrieval_context. # While retrieval context is more concerned with RAG pipelines, # context is the ideal retrieval results for a given input, # and typically resides in the dataset used to fine-tune your LLM context[...],)metric HallucinationMetric(threshold0.5)metric.measure(test_case)print(metric.score)print(metric.is_successful())然而这种方法可能会非常昂贵因此目前我建议使用 NLI 评分器并手动提供一些上下文作为真实基准替代。内容毒性指标毒性指标评测文本中包含攻击性、有害或不适当语言的程度。可以利用现成的预训练模型如 Detoxify它们基于 BERT 评分器来对毒性进行评分。from deepeval.metrics import ToxicityMetricfrom deepeval.test_case import LLMTestCasemetric ToxicityMetric(threshold0.5)test_case LLMTestCase( inputWhat if these shoes dont fit?, # Replace this with the actual output from your LLM application actual_output We offer a 30-day full refund at no extra cost.)metric.measure(test_case)print(metric.score)然而这种方法可能不够准确因为评论中若出现“与咒骂、侮辱或亵渎相关的词汇”无论作者的语调或意图如何例如幽默/自嘲都很可能被归类为有毒内容。在这种情况下你或许应考虑改用 G-Eval 来定义毒性的自定义标准。事实上G-Eval 不局限于特定用例的特性正是我如此青睐它的主要原因。from deepeval.metrics import GEvalfrom deepeval.test_case importLLMTestCasetest_case LLMTestCase( inputWhat if these shoes dont fit?, # Replace this with the actual output from your LLM application actual_outputWe offer a 30-day full refund at no extra cost.)toxicity_metric GEval( nameToxicity, criteriaToxicity - determine if the actual outout contains any non-humorous offensive, harmful, or inappropriate language, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT],)metric.measure(test_case)print(metric.score)偏差偏差指标评测文本内容中的政治、性别和社会偏见等方面。这对于涉及自定义LLM参与决策过程的应用尤为关键。例如在银行贷款审批中提供无偏见的推荐或在招聘过程中协助判断候选人是否应进入面试名单。与毒性类似偏差也可通过 G-Eval 进行评测。但别误会QAG 同样可以作为毒性及偏差等指标的可行评分工具。from deepeval.metrics import GEvalfrom deepeval.test_case importLLMTestCasetest_case LLMTestCase( inputWhat if these shoes dont fit?, # Replace this with the actual output from your LLM application actual_outputWe offer a 30-day full refund at no extra cost.)toxicity_metric GEval( nameBias, criteriaBias - determine if the actual output contains any racial, gender, or political bias., evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT],)metric.measure(test_case)print(metric.score)偏见是一个高度主观的问题在不同地理、地缘政治和社会环境间差异显著。例如在一种文化中被视为中立的语言或表达在另一种文化中可能带有不同的隐含意义。这也是为何少样本评测在偏见问题上效果不佳的原因。一个潜在的解决方案是微调一个自定义的LLM用于评测或为上下文学习提供极其清晰的评分标准正因如此我认为偏见是所有指标中最难实施的一个。场景化定制指标提示对齐提示对齐指标评测你的LLM是否能根据提示模板中的指令生成文本。该算法简单而有效我们首先• 遍历提示模板中的所有指令然后…• 根据输入和输出判断每条指令是否被遵循这种方法之所以有效是因为我们仅向指标提供指令列表而非整个提示这意味着你的评委LLM无需将整个提示作为上下文这可能导致冗长和幻觉只需在判断指令是否被遵循时一次考虑一条指令。from deepeval.metrics import PromptAlignmentMetricfrom deepeval.test_case import LLMTestCasemetric PromptAlignmentMetric( prompt_instructions[Reply in all uppercase], modelgpt-4, include_reasonTrue)test_case LLMTestCase( inputWhat if these shoes dont fit?, # Replace this with the actual output from your LLM application actual_outputWe offer a 30-day full refund at no extra cost.)print(metric.score)print(metric.reason)摘要质量评估指标关于摘要评估指标其实我在之前的文章(一步步指导如何评测LLM文本摘要任务)里已经做过详细解析强烈推荐你抽空读一读那篇可比这篇短多啦。简单来说优质摘要需要满足两个核心条件忠于原文事实不扭曲、不遗漏关键信息。抓准重点内容完整呈现原文的核心观点。我们通过QAG问答生成评估法Question-Answer Generation来量化这两个维度先检验摘要与原文的事实一致性再评估重要信息覆盖率。在DeepEval评估框架中最终得分会取这两个维度的最低分——毕竟摘要质量就像木桶效应容不得短板。from deepeval.metrics import SummarizationMetricfrom deepeval.test_case import LLMTestCase# This is the original text to be summarizedinput The inclusion score is calculated as the percentage of assessment questionsfor which both the summary and the original document provide a yes answer. Thismethod ensures that the summary not only includes key information from the originaltext but also accurately represents it. A higher inclusion score indicates amore comprehensive and faithful summary, signifying that the summary effectivelyencapsulates the crucial points and details from the original content.# This is the summary, replace this with the actual output from your LLM applicationactual_outputThe inclusion score quantifies how well a summary captures andaccurately represents key information from the original text,with a higher score indicating greater comprehensiveness.test_case LLMTestCase(inputinput, actual_outputactual_output)metric SummarizationMetric(threshold0.5)metric.measure(test_case)print(metric.score)总结希望你现在已经了解了在选择LLM评测指标时需要考虑的所有不同因素和必须做出的选择。LLM评测指标的主要目的是量化你的LLM应用程序的性能为此我们有不同的评分器其中一些优于其他。对于LLM评测使用LLMsG-Eval、Prometheus、SelfCheckGPT 和 QAG的评分器因其高推理能力而最为准确但我们需要额外小心以确保这些分数的可靠性。归根结底指标的选择取决于你的用例和LLM应用程序的实现其中 RAG 和微调指标是评测LLM输出的良好起点。对于更具体的用例指标你可以使用 G-Eval 配合少量示例提示以获得最准确的结果最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**‍

做网站域名是怎么回事wordpress文章链接自定义

网站建设的题目wifiu盘做网站

上海松江区做网站公司中盛浩瀚建设有限公司网站

crm在线观看深圳市seo网站设计

怎么用网站源码做网站大型网站建设

商务咨询公司网站制作模板成都网页设计

织梦做的网站如何放在网上深圳做个商城网站设计

做网站 域名是怎么回事wordpress文章链接自定义

网站建设的题目wifiu盘做网站

上海松江区做网站公司中盛浩瀚建设有限公司网站

crm在线观看深圳市seo网站设计

怎么用网站源码做网站大型网站建设

商务咨询公司网站制作模板成都 网页设计

织梦做的网站如何放在网上深圳做个商城网站设计

做网站域名是怎么回事wordpress文章链接自定义

商务咨询公司网站制作模板成都网页设计