太原免费静态网站制作房天下网站建设-吉安市网站建设公司-Seo优化

太原免费静态网站制作,房天下网站建设,网站推广效果怎么样,discuz应用本文详细介绍了检索增强生成#xff08;RAG#xff09;技术的构建流程与核心概念。RAG允许大语言模型在生成响应前引用外部知识库#xff0c;无需重新训练。文章解释了数据分块、向量转换、向量数据库存储、相似度计算等关键步骤#xff0c;以及向量数据库、向量嵌入、相似…本文详细介绍了检索增强生成RAG技术的构建流程与核心概念。RAG允许大语言模型在生成响应前引用外部知识库无需重新训练。文章解释了数据分块、向量转换、向量数据库存储、相似度计算等关键步骤以及向量数据库、向量嵌入、相似性测量等技术要点为构建高效准确的RAG系统提供了理论基础和实践指导。1、 RAG与langchain应用检索增强⽣成RAG是指对⼤型语⾔模型输出进⾏优化使其能够在⽣成响应之前引⽤训练数据来源之外的权威知识库。⼤型语⾔模型LLM⽤海量数据进⾏训练使⽤数⼗亿个参数为回答问题、翻译语⾔和完成句⼦等任务⽣成原始输出。在 LLM 本就强⼤的功能基础上RAG 将其扩展为能访问特定领域或组织的内部知识库所有这些都⽆需重新训练模型。这是⼀种经济⾼效地改进 LLM 输出的⽅法让它在各种情境下都能保持相关性、准确性和实⽤性。1.1 RAG构建流程假设现在我们有一个偌大的知识库当想从该知识库中去检索最相关的内容时最简单的方法是接收到一个查询Query就直接在知识库中进行搜索。这种做法其实是可行的但存在两个关键的问题假设提问的Query的答案出现在一篇文章中去知识库中找到一篇与用户输入相关的文章是很容易的但是我们将检索到的这整篇文章直接放入Prompt中并不是最优的选择因为其中一定会包含非常多无关的信息而无效信息越多对大模型后续的推理影响越大。任何一个大模型都存在最大输入的Token限制一个流程中可能涉及多次检索每次检索都会产生相应的上下文无法容纳如此多的信息。解决上述两个问题的方式是把存放着原始数据的知识库Knowledge中的每一个raw data切分成一个一个的小块这些小块可以是一个段落也可以是数据库中某个索引对应的值。这个切分过程被称为“分块”chunking如下述流程所示以第一个原始数据为例raw data 1通过一些特定的方法进行切分一个完整的内容会被分割成 chunk1 ~ chunk4。采取相同的方法继续对raw data 2、raw data 3直至raw data n进行切分。完成这一过程后我们最终得到的是一个充满分块数据chunks的新的知识库repository其中每一项都是一个单独的chunk。例如如果原始文档共有10个那么经过切分可能会产生出100个chunks。完成这一转化后当再次接收到一个查询Query时就会在更新后的知识库repository中进行搜索这时检索的范围就不再是某个完整的文档而是其中的某一个部分返回的是一个或多个特定的chunk这样返回的信息量就会更小且更精确。随后这些被检索到的chunk会被加入到Prompt中作为上下文信息与用户原始的Query共同输入到大模型进行处理以生成最终的回答。在上述将原始数据raw data转化为chunk的过程中就会包含构建RAG的第一部分开发工作这包括如果做数据清洗如去除停用词、标点符号等。此外还涉及如何选择合适的split方法来进行数据切分的一系列技术。接下来面临的问题是尽管所有数据已经被切割成一个个chunk其存储形式还是以字符串形式存在如果想从repository中匹配到与输入的query相关的chunks比较两句话是否相似看一句话中相同字有几个这显然是行不通的。我们需要获取的是句子所蕴含的深层含义而非仅仅是表面的字面相似度。因此大家也能想到在NLP中去计算文本相似度的有效的方法就是Embedding即将这些chunks转换成向量vector形式。所以流程会丰富如下Embedding 是由向量模型⽣成的它会根据不同的算法⽣成⾼维度的向量数据代表着数据的不同特征这些特征代表了数据的不同维度。例如对于⽂本这些特征可能包括词汇、语法、语义、情感、情绪、主题、上下⽂等。对于⾳频这些特征可能包括⾳调、节奏、⾳⾼、⾳⾊、⾳量、语⾳、⾳乐等。在这个流程中会先将用户输入的 Query 转化成 Vector然后再去与知识库中的向量进行相似度比较检索出相似的Vector最终返回其对应的Chunk字符串形式的文本再执行后续的流程。所以在这个过程中就会产生构建RAG的第二部分的开发工作如果将chunk转化成Vector及以何种形式进行存储。同时我们要考虑的是如何去计算向量之间的相似度如果去和知识库中的向量一个一个比较这个时间复杂度是非常高的那么其解决办法又是什么呢我们继续看下述流程如上所示解决搜索效率和计算相似度优化算法的答案就是向量数据库。同时也产生了构建RAG的第三部分工作我们要去了解和学习如何选择、使用向量数据库。最终整体流程就如上图所示一个基础的RAG架构会只要包含以下几方面的开发工作如何将原始数据转化成chunks如何将chunks转化成Vector如何选择计算向量相似度的算法如何利用向量数据库提升搜索效率如何把找到的chunks与原始query拼接在一起产生最终的Prompt在以上5点开发任务中我们确实是可以利用已经训练好的Embedding模型开源的向量数据库等去直接解决某一类问题所以我们前面才说一个基础架构的RAG系统搭建起来其实很简单但搭建并不意味着直接就能用毕竟RAG的核心是检索检索出来的内容的准确率是衡量一个RAG系统的最基础的标准。目前没有任何一套理论、任何一套解决方案能够百分之百的指导着我们构建出一个最优的RAG系统。不同的需求不同的数据其构建方法也会大相径庭需要我们在实践的过程中不断地去尝试不断地去积累相关的经验才能够将其真正落地。1.2 相关核心概念和操作1.2.1 向量数据库向量数据库Vector Database也叫矢量数据库主要用来存储和处理向量数据。在数学中向量是有大小和方向的量可以使用带箭头的线段表示箭头指向即为向量的方向线段的长度表示向量的大小。两个向量的距离或者相似性可以通过欧式距离或者余弦距离得到。图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中从而实现对图像、文本和音视频的相似性搜索和检索。这意味着您可以使用向量数据库根据语义或上下文含义查找最相似或相关的数据。向量数据库的主要特点是高效存储与检索。利用索引技术和向量检索算法能实现高维大数据下的快速响应。1.2.2 向量嵌入Vector Embeddings对于传统数据库搜索功能都是基于不同的索引方式加上精确匹配和排序算法等实现的。本质还是基于文本的精确匹配这种索引和搜索算法对于关键字的搜索功能非常合适但对于语义搜索功能就非常弱。例如如果你搜索 “小狗”那么你只能得到带有“小狗” 关键字相关的结果而无法得到 “柯基”、“金毛” 等结果因为 “小狗” 和“金毛”是不同的词传统数据库无法识别它们的语义关系所以传统的应用需要人为的将 “小狗” 和“金毛”等词之间打上小狗特征标签进行关联这样才能实现语义搜索。同样当你在处理非结构化数据时你会发现非结构化数据的特征数量会迅速增加处理过程会变得十分困难。比如我们处理图像、音频、视频等类型的数据时这种情况尤为明显。就拿图像来说可以标注的特征包括颜色、形状、纹理、边缘、对象、场景等多个方面。然而这些特征数量众多而且依靠人工进行标注的难度很大。因此我们需要一种自动化的方式来提取这些特征而Vector Embedding技术就能够实现这一目标。Vector Embedding 是由专门的向量模型生成的它会根据不同的算法生成高维度的向量数据代表着数据的不同特征这些特征代表了数据的不同维度。例如对于文本这些特征可能包括词汇、语法、语义、情感、情绪、主题、上下文等。对于音频这些特征可能包括音调、节奏、音高、音色、音量、语音、音乐等。1.2.3 相似性测量如何衡量向量之间的相似性呢有三种常见的向量相似度算法欧几里德距离、余弦相似度和点积。点积内积: 两个向量的点积是一种衡量它们在同一方向上投影的大小的方法。如果两个向量是单位向量长度为1它们的点积等于它们之间夹角的余弦值。因此点积经常被用来计算两个向量的相似度。余弦相似度: 这是一种通过测量两个向量之间的角度来确定它们相似度的方法。余弦相似度是两个向量点积和它们各自长度乘积的商。这个值的范围从-1到1其中1表示完全相同的方向-1表示完全相反0表示正交。欧氏距离: 这种方法测量的是两个向量在n维空间中的实际距离。虽然它通常用于计算不相似度即距离越大不相似度越高但可以通过某些转换如取反数或用最大距离归一化将其用于相似度计算。像我们最常用的余弦相似度其代码实现也非常简单如下所示importnumpyasnp defcosine_similarity(A, B): # 使用numpy的dot函数计算两个数组的点积 # 点积是向量A和向量B在相同维度上对应元素乘积的和 dot_productnp.dot(A, B) # 计算向量A的欧几里得范数长度 # linalg.norm默认计算2-范数即向量的长度 norm_Anp.linalg.norm(A) # 计算向量B的欧几里得范数长度 norm_Bnp.linalg.norm(B) # 计算余弦相似度 # 余弦相似度定义为向量点积与向量范数乘积的比值 # 这个比值表示了两个向量在n维空间中的夹角的余弦值 returndot_product/ (norm_A*norm_B)1.2.4相似性搜素既然我们知道了可以通过比较向量之间的距离来判断它们的相似度那么如何将它应用到真实的场景中呢如果想要在一个海量的数据中找到和某个向量最相似的向量我们需要对数据库中的每个向量进行一次比较计算但这样的计算量是非常巨大的所以我们需要一种高效的算法来解决这个问题。高效的搜索算法有很多其主要思想是通过两种方式提高搜索效率1减少向量大小——通过降维或减少表示向量值的长度。2缩小搜索范围——可以通过聚类或将向量组织成基于树形、图形结构来实现并限制搜索范围仅在最接近的簇中进行。我们首先来介绍⼀下大部分算法共有的核心概念也就是kmeans聚类。K-Means聚类我们可以在保存向量数据后先对向量数据先进行聚类。例如下图在二维坐标系中划定了 4 个聚类中心然后将每个向量分配到最近的聚类中心经过聚类算法不断调整聚类中心位置这样就可以将向量数据分成 4 个簇。每次搜索时只需要先判断搜索向量属于哪个簇然后再在这一个簇中进行搜索这样就从 4 个簇的搜索范围减少到了 1 个簇大大减少了搜索的范围。HNSW除了聚类以外也可以通过构建树或者构建图的方式来实现近似最近邻搜索。这种方法的基本思想是每次将向量加到数据库中的时候就先找到与它最相邻的向量然后将它们连接起来这样就构成了一个图。当需要搜索的时候就可以从图中的某个节点开始不断的进行最相邻搜索和最短路径计算直到找到最相似的向量。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

太原免费静态网站制作房天下网站建设

网站开发 app网站手机版管理链接

多种成都网站建设网络营销具有哪些特点

长安网站建设软件建正建设官方网站

深圳微网站开发seo是什么意思中文翻译

网站的建设想法wordpress 访问密码忘记

做h5的网站页面设计深圳杰恩创意设计有限公司网站

太原免费静态网站制作房天下网站建设

网站开发 app网站手机版管理链接

多种成都网站建设网络营销具有哪些特点

长安网站建设软件建正建设官方网站

深圳微网站开发seo是什么意思中文翻译

网站的建设 想法wordpress 访问密码忘记

做h5的网站页面设计深圳杰恩创意设计有限公司网站

网站的建设想法wordpress 访问密码忘记