网站数据统计工具企业网站备个人-吉安市网站建设公司-Seo优化

网站数据统计工具,企业网站备个人,nodejs做网站能保护源代码吗,绍兴大公司有哪些文章详细介绍了基于LlamaIndex框架构建的应急管理安全生产智能问答系统#xff0c;采用AgentRAGText2SQL技术架构。系统整合非结构化文档和结构化数据#xff0c;通过混合查询架构实现知识检索与数据库查询的智能切换#xff0c;并包含句子拆分、自动质量评估和回退机制等功…文章详细介绍了基于LlamaIndex框架构建的应急管理安全生产智能问答系统采用AgentRAGText2SQL技术架构。系统整合非结构化文档和结构化数据通过混合查询架构实现知识检索与数据库查询的智能切换并包含句子拆分、自动质量评估和回退机制等功能。作者分享了数据整理、索引建立、查询引擎构建等关键步骤及实战经验为开发类似智能问答系统提供了完整的技术路线和解决方案。前排提示文末有大模型AGI-CSDN独家资料包哦《应急管理安全生产智能问答》大赛是一个较典型大模型Agent实战项目首先看下比赛的具体内容然后再进行具体的分析和实战一、赛题描述随着我国工业经济的迅猛发展危化品企业与工业高危工艺规模持续扩张安全生产风险防控压力剧增。传统依赖人工查询数据、解读政策的模式已难以满足应急管理的快速决策需求“监管难”“响应慢” 成为制约安全生产治理能力提升的关键瓶颈。机器学习、大模型等AI技术的发展为应急管理数字化转型提供了全新路径其强大的自然语言理解与知识整合能力正推动智慧应急建设迈向智能化新阶段。本赛题立足应急管理实际需求将AI技术应用于安全生产智能问答场景。核心任务是构建一个面向应急安全生产的统一智能问答系统。该系统将助力应急管理人员快速获取关键数据、精准掌握政策要求有效提升应急安全生产决策效率为风险预警、隐患排查、应急处置提供科学支撑筑牢安全生产数字化防线为智慧应急体系建设与城市安全发展提供重要保障推动应急管理能力实现质的飞跃。二、赛题题目应急管理安全生产智能问答三、赛题任务赛题同步接入本地危化企业/工业企业高危工艺的结构化表数据、应急领域地方政策文件、国家法律法规、行业标准规范等文本数据。系统能够精准理解用户提出的多样化问题涉及数据查询、政策解读、合规性判断等并基于对问题意图的深度解析自动判断需检索的数据生成准确可靠的答案。参赛者可依托主流开源大模型或机器学习模型通过大模型微调、检索增强生成RAG、智能体Agent等技术手段实现最终目标。【初赛-A榜】选手根据提供的数据线下进行AI模型开发与调试构建应急管理安全生产智能问答系统。基于测试问题集利用构建的问答系统自动化输出答案结果严禁人为构造答案结果并提交。四、数据描述【初赛-A榜】本赛题提供的数据集包含危化企业结构化表数据和危化品、危化企业相关的地方政策/法律法规/标准规范/管理办法等文本数据。数据集清单与说明选手需对给定的A榜测试数据进行推理预测测试数据格式如下问答对涉及表数据的重要规则说明1.通用规则基础关联条件在任何涉及企业编码org_code的查询中都必须确保企业编码来源于企业基础表base_t_enterprise_draft中有效的企业数据即删除状态为未删除delete_status0且审核状态为已审核check_status2多表关联查询对于主表企业安全生产责任承诺表enterprise_promise除外若其包含“删除状态”、“审核状态”字段需确保企业数据为有效数据即删除状态为“未删除”、审核状态为“已审核”2.涉及“特殊作业”相关问答对的时间范围1特殊作业的时间范围由两个阶段共同构成计划阶段与实施阶段。其中计划阶段的时间范围为作业计划开始时间start_time至作业计划结束时间end_time实施阶段的时间范围为作业实施开始时间zysskssj至作业实施结束时间zyssjssj五、提交说明【初赛-A榜】选手需要根据给定的测试问题集分别预测出测试集对应的答案并以csv格式保存文件名为result.csv。结果result.csv的样例如下注选手需保证提交的result.csv中数据的字段顺序与给定的问答测试集顺序一致提交的文件记录数也需保持一致。为避免评测过程中文件编码格式导致评测错误的影响文件统一以utf-8编码。六、评估指标以上为竞赛项目的实际情况接下来进入分析阶段一、系统分析根据比赛内容涉及到问答、知识库、RAG、Agent等我们基本可以可以断定是一个涉及AgentRAG的项目。有大量的Excel数据数据量比较大则需要将数据导入到关系型数据库里作为结构化数据再使用NL2SQL/Text2SQL。非结构化文档pdf/words等格式包含扫描件等需要清洗数据。需要对非结构化数据pdf/words等和结构数据Excel数据分别处理检索时需要整合这两种数据源。二、技术选型1、AgentRAGText2SQL的问答功能可选技术框架一般有1LangChain;2LlamaIndex;本文选择LlamaIndex,该框架入门简单内置了丰富的功能特别适合RAG类型的Agent开发也内置Text2SQL组件2、关系型数据库选择Mysql3、向量数据库选择ChromaDB三、数据整理1、非结构化文档使用MinerUOCR统一转化为MarkDown格式的文件2、将所有Excel数据导入到Mysql数据库里特别说明表名的备注说明、表字段的说明一定要全部导入。四、建立索引非结构化数据已全部转为MarkDown所以Llamaindex内置的文本切分器MarkdownNodeParser批量将所有MarkDown文件全部向量化存储到ChromaDB里。五、对非结构化数据的检索查询先完成非结构化数据的检索查询再整合Text2SQL。非结构化数据的检索查询就是我们最常见的RAG知识库检索增强。流程如下核心代码如下query_engine index.as_query_engine( similarity_top_ksimilarity_top_k, response_modetree_summarize, node_postprocessorsnode_postprocessors if node_postprocessors else None )六、结构化数据Text2SQL查询检索使用LlamaIndex内置的SQL查询引擎SQLTableRetrieverQueryEngine分2步骤查询第1是查询涉及到的表第2步是从这几个表中写SQL进行查询。流程如下用户问题 │ ▼ ┌──────────────┐ │ 表结构检索 │ │ (SQLTable │ │ Retriever) │ └──────┬───────┘ │ ▼ ┌──────────────┐ │ 业务规则注入 │ │ (SQL Rules) │ └──────┬───────┘ │ ▼ ┌──────────────┐ │ LLM 生成 SQL │ │ (Text-to-SQL) │ └──────┬───────┘ │ ▼ ┌──────────────┐ │ SQL 执行 │ └──────┬───────┘ │ ▼ ┌──────────────┐ │ 结果检测 │ │ (空结果?) │ └──────┬───────┘ │ ┌──┴──┐ │ │ 否是 │ │ ▼ ▼ 返回结果模糊查询回退 │ │ └──┬──┘ │ 返回结果实战过程中发现一些问题检索到的表不正确拼接的SQL中出现非该表的字段表字段混乱使用业务理解错误Value值拆分不正确不需要拆分的却被拆分了解决方案写业务规则告诉大模型什么场景下使用什么表。限定某些表的使用范围限定某些表字段使用范围禁止显示的场景使用模糊查询先精确查询若未查询到结果则再使用模糊查询再次查询。七、整合两个查询两个查询一般需要先查询非结构化数据若查询到的结果得分较低则使用Text2SQL查询数据。八、拆分子句根据给到的100个问题发现有些问题是2句话其中一句话要从非结构化数据里查询另一句话要从结构化数据里查询那么我们在混合查询之前需要拆分句子。我们使用大模型来帮我们拆分句子核心代码如下import logging from typing import List from loguru import logger # 导入LlamaIndex相关模块 from llama_index.core import Settings, PromptTemplate from llama_index.core.llms import ChatMessage # 语句拆分的提示模板 SENTENCE_SPLIT_PROMPT 你是一个专业的语句拆分助手。请将用户输入的文本按照自然语言的句子边界拆分成多个独立的句子。要求 1. 每个句子必须是完整的表达一个完整的意思 2. 保留原始文本的标点符号 3. 确保拆分后的句子语法正确 4. 只返回拆分后的句子列表不要添加任何额外的解释或说明输入文本{input_text} 请以JSON格式返回拆分后的句子列表格式如下 {sentences: [句子1, 句子2, 句子3]} def split_sentences(input_text: str) - List[str]: 使用大模型将输入文本拆分成多个句子 Args: input_text: 用户输入的文本可以包含多句话 llm: 已初始化的语言模型如果为None则自动初始化 Returns: List[str]: 拆分后的句子列表 if not input_text or not input_text.strip(): logger.warning(输入文本为空) return [] try: #logger.info(f开始拆分句子输入文本长度: {len(input_text)} 字符) # 创建提示模板 prompt_template PromptTemplate(SENTENCE_SPLIT_PROMPT) # 格式化提示 formatted_prompt prompt_template.format(input_textinput_text) # 创建聊天消息 messages [ ChatMessage(rolesystem, content你是一个专业的语句拆分助手。), ChatMessage(roleuser, contentformatted_prompt) ] # 调用模型 response Settings.llm.chat(messages) # 提取响应内容 response_content response.message.content.strip() # logger.info(f模型返回响应: {response_content}) # 解析JSON响应 import json try: # 提取JSON部分处理模型可能返回的额外文本 if { in response_content: json_start response_content.find({) json_end response_content.rfind(}) 1 json_str response_content[json_start:json_end] result json.loads(json_str) sentences result.get(sentences, []) #logger.info(f成功拆分出 {len(sentences)} 个句子) return sentences else: logger.error(模型响应中未找到JSON格式数据) # 备用方案尝试基本的正则拆分 import re sentences re.split(r[。.!?]\s*, input_text) return [s.strip() for s in sentences if s.strip()] except json.JSONDecodeError: logger.error(无法解析JSON响应) # 备用方案尝试基本的正则拆分 import re sentences re.split(r[。.!?]\s*, input_text) return [s.strip() for s in sentences if s.strip()] except Exception as e: logger.error(f语句拆分过程中出错: {str(e)}) # 错误处理使用简单的正则表达式作为备用方案 try: import re sentences re.split(r[。.!?]\s*, input_text) return [s.strip() for s in sentences if s.strip()] except Exception: return [input_text] # 最后返回原始文本 # 添加一个简单的测试函数 def test_split(): 测试语句拆分功能 test_cases [ #你好很高兴认识你。今天天气真好我们去公园玩吧, # Python是一种广泛使用的解释型、高级的通用编程语言。它由荷兰人吉多·范罗苏姆于1989年圣诞节期间为了打发圣诞节的无趣而开发的。, # This is a test. Can you split these sentences correctly? I hope so!, # 这是一个非常长的句子中间没有任何标点符号测试模型是否能正确处理这种情况虽然有些难度但我们可以看看效果如何如果真的处理不了的话至少能返回原始文本。 #给出全市风险等级为一般风险的企业数量并说明如何划分安全风险评估的区域。, 查询全市涉及烷基化工艺的企业名单。并说明烷基化工艺的重点监控工艺参数。 ] for i, test_case in enumerate(test_cases, 1): print(f\n测试用例 {i}: {test_case}) sentences split_sentences(test_case, llm) print(f拆分结果 ({len(sentences)}个句子):) for j, sentence in enumerate(sentences, 1): print(f {j}. {sentence}) if __name__ __main__: # 默认运行主函数 #main() # 如果想要运行测试可以取消下面一行的注释 test_split()拆分子句轮询的结果可以直接拼接也可以再使用大模型来整合语言。九、Agent工作流开发完这些功能后发现该流程节点比较长的节点和流转比较固定适合使用WorkFlow来优化整体的代码结构。本系统的核心思想混合查询架构优先使用向量数据库检索自动质量评估和回退机制必要时切换到 MySQL Text-to-SQL 查询智能回退策略基于相似度分数判断结果质量检测回答中的低质量关键词自动触发 MySQL 查询回退多数据源支持Markdown /PDF/Word文档Excel 表格数据表结构说明MySQL 数据库结构化业务数据句子拆分处理支持复杂多句查询自动拆分并分别处理每个子问题合并多个子问题的答案本项目代码实战的得分如下分数不算高但是整体思路是没有问题的可在细节再打磨一下还能提升不少分数。比如后处理重排序BM25检索等多重检索大模型的选择。读者福利倘若大家对大模型感兴趣那么这套大模型学习资料一定对你有用。针对0基础小白如果你是零基础小白快速入门大模型是可行的。大模型学习流程较短学习内容全面需要理论与实践结合学习计划和方向能根据资料进行归纳总结包括大模型学习线路汇总、学习阶段大模型实战案例大模型学习视频人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】AI大模型学习路线汇总大模型学习路线图整体分为7个大的阶段全套教程文末领取哈第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。大模型实战案例光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。大模型视频和PDF合集这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一跟着老师的思路由浅入深从理论到实操其实大模型并不难。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

网站数据统计工具企业网站备个人

长沙公司网站高端网站建设三水容桂网站制作

企业网站建设jz190创新的微商城网站建设

怎么制作手机网站心理咨询在线免费咨询

西安网站制作公司哪中国电信爱资源app

网站建设文案有趣文学网站建设

做管道方面的网站网络设计公司有哪些