网站小样用什么做梁山网站建设多少钱

张小明 2026/1/3 5:58:16
网站小样用什么做,梁山网站建设多少钱,专建网站,百度网盟推广步骤一、算法介绍朴素贝叶斯是基于贝叶斯定理的特征条件独立假设分类算法#xff0c;通过先验概率和特征条件概率计算后验概率#xff0c;适用于文本分类和混合特征数据。特点#xff1a;核心假设#xff1a;特征条件独立性假设#xff08;朴素之处#xff09;计算高效#…一、算法介绍朴素贝叶斯是基于贝叶斯定理的特征条件独立假设分类算法通过先验概率和特征条件概率计算后验概率适用于文本分类和混合特征数据。特点核心假设特征条件独立性假设朴素之处计算高效训练和预测时间复杂度低内存友好仅需存储概率参数可解释性概率输出直观易懂多场景支持离散、连续和混合特征平滑处理可避免零概率问题小样本在小数据集上表现良好应用领域文本分类垃圾邮件过滤、新闻分类、情感分析推荐系统商品推荐、内容推荐医学诊断疾病预测、症状分析金融风控欺诈检测、信用评估工业检测故障诊断、质量控制自然语言处理文档分类、主题识别生物信息学基因分类、蛋白质分析实时系统需要快速响应的应用场景算法原理朴素贝叶斯算法基于贝叶斯定理进行推导P(Y∣X) 为后验概率已知特征 X 下属于类别 Y 的概率P(X∣Y)为似然概率类别 Y 下特征 X出现的概率P(Y)为先验概率类别 Y的初始概率P(X) 为证据特征 X出现的总概率算法“朴素”之处在于假设各特征条件独立该假设将复杂的联合概率分解为多个独立特征概率的乘积大幅简化了计算。二、应用朴素贝叶斯西瓜分类器1.数据准备2.对于离散特征用频率估计连续特征用高斯分布离散特征处理方法对于分类问题中的离散特征如色泽、根蒂等通常使用多项式朴素贝叶斯或伯努利朴素贝叶斯1. 核心公式多项式分布参数说明Ny,v​类别 y 中特征 xi取值为 v 的样本数Ny类别 y 的总样本数K特征 xi​ 的可能取值个数α平滑参数α1α1 时为拉普拉斯平滑连续特征处理方法对于连续特征如密度、含糖率采用高斯朴素贝叶斯1. 核心假设假设连续特征在每个类别下服从正态分布高斯分布。2. 概率密度函数参数说明μy类别 y 下特征 xi 的均值σy​类别 y 下特征 xi​ 的标准差xi​待预测样本的特征值3.代码实现import numpy as np import pandas as pd from scipy.stats import norm # 正态分布概率密度计算 # 构建西瓜数据集3.0 data { 色泽: [青绿, 乌黑, 乌黑, 青绿, 浅白, 青绿, 乌黑, 乌黑, 乌黑, 青绿, 浅白, 浅白, 青绿, 浅白, 乌黑, 浅白, 青绿], 根蒂: [蜷缩, 蜷缩, 蜷缩, 蜷缩, 蜷缩, 稍蜷, 稍蜷, 稍蜷, 硬挺, 硬挺, 硬挺, 稍蜷, 蜷缩, 稍蜷, 稍蜷, 蜷缩, 硬挺], 敲声: [浊响, 沉闷, 浊响, 沉闷, 浊响, 浊响, 沉闷, 浊响, 清脆, 清脆, 浊响, 沉闷, 浊响, 清脆, 沉闷, 浊响, 沉闷], 纹理: [清晰, 清晰, 清晰, 清晰, 清晰, 清晰, 稍糊, 清晰, 稍糊, 模糊, 模糊, 稍糊, 清晰, 模糊, 稍糊, 清晰, 稍糊], 脐部: [凹陷, 凹陷, 凹陷, 凹陷, 凹陷, 稍凹, 稍凹, 凹陷, 平坦, 平坦, 平坦, 稍凹, 凹陷, 平坦, 稍凹, 凹陷, 平坦], 触感: [硬滑, 硬滑, 硬滑, 硬滑, 硬滑, 软粘, 软粘, 硬滑, 软粘, 硬滑, 软粘, 硬滑, 硬滑, 硬滑, 软粘, 硬滑, 硬滑], 密度: [0.697, 0.774, 0.634, 0.608, 0.556, 0.403, 0.481, 0.437, 0.666, 0.243, 0.245, 0.343, 0.639, 0.657, 0.360, 0.593, 0.719], 含糖率: [0.460, 0.376, 0.264, 0.318, 0.215, 0.237, 0.149, 0.211, 0.091, 0.267, 0.057, 0.099, 0.161, 0.198, 0.370, 0.042, 0.103], 好瓜: [是, 是, 是, 是, 是, 是, 是, 是, 否, 否, 否, 否, 否, 否, 否, 否, 否] } df pd.DataFrame(data) # 待预测样本测1与样本1完全一致 test_sample { 色泽: 青绿, 根蒂: 蜷缩, 敲声: 浊响, 纹理: 清晰, 脐部: 凹陷, 触感: 硬滑, 密度: 0.697, 含糖率: 0.460 } class NaiveBayesWatermelon: def __init__(self, df, label_col好瓜): self.df df self.label_col label_col self.labels df[label_col].unique() # 标签[是, 否] self.discrete_cols [色泽, 根蒂, 敲声, 纹理, 脐部, 触感] # 离散属性 self.continuous_cols [密度, 含糖率] # 连续属性 # 存储先验概率、离散属性条件概率、连续属性的均值/方差 self.prior_prob {} # 先验概率 P(好瓜是/否) self.discrete_cond_prob {} # 离散属性条件概率 P(属性值|标签) self.continuous_params {} # 连续属性的均值和方差 (mu, sigma²) # 初始化计算 self._calc_prior_prob() self._calc_discrete_cond_prob() self._calc_continuous_params() # 步骤1计算先验概率 P(好瓜是/否) def _calc_prior_prob(self): total len(self.df) for label in self.labels: self.prior_prob[label] len(self.df[self.df[self.label_col] label]) / total # 步骤2计算离散属性的条件概率拉普拉斯平滑 def _calc_discrete_cond_prob(self): for col in self.discrete_cols: self.discrete_cond_prob[col] {} # 该属性的所有唯一取值 all_vals self.df[col].unique() n_vals len(all_vals) # 属性取值数量拉普拉斯平滑分母用 for label in self.labels: self.discrete_cond_prob[col][label] {} # 该标签下的样本数 n_label len(self.df[self.df[self.label_col] label]) for val in all_vals: # 该标签下属性val的样本数 n_val_label len(self.df[(self.df[self.label_col] label) (self.df[col] val)]) # 拉普拉斯平滑P (n_val_label 1) / (n_label n_vals) self.discrete_cond_prob[col][label][val] (n_val_label 1) / (n_label n_vals) # 处理未出现在训练集的取值兜底 self.discrete_cond_prob[col][label][unknown] 1 / (n_label n_vals) # 步骤3计算连续属性的均值和方差正态分布参数 def _calc_continuous_params(self): for col in self.continuous_cols: self.continuous_params[col] {} for label in self.labels: # 该标签下的连续属性值 vals self.df[self.df[self.label_col] label][col] mu vals.mean() # 均值 sigma2 vals.var() # 方差 self.continuous_params[col][label] (mu, sigma2) # 步骤4计算单个样本的后验概率 def _calc_posterior_prob(self, sample): posterior {} for label in self.labels: # 先验概率 prob self.prior_prob[label] # 1. 乘离散属性的条件概率 for col in self.discrete_cols: val sample[col] # 若取值不在训练集用unknown的概率 if val in self.discrete_cond_prob[col][label]: prob * self.discrete_cond_prob[col][label][val] else: prob * self.discrete_cond_prob[col][label][unknown] # 2. 乘连续属性的正态分布概率密度 for col in self.continuous_cols: val sample[col] mu, sigma2 self.continuous_params[col][label] sigma np.sqrt(sigma2) # 正态分布概率密度 prob * norm.pdf(val, locmu, scalesigma) posterior[label] prob return posterior # 预测样本类别 def predict(self, sample): posterior self._calc_posterior_prob(sample) # 取后验概率最大的标签 pred_label max(posterior, keyposterior.get) return pred_label, posterior # 初始化朴素贝叶斯分类器 nb NaiveBayesWatermelon(df) # 预测“测1”样本 pred_label, posterior nb.predict(test_sample) # 输出结果 print( 朴素贝叶斯分类结果 ) print(f先验概率P(好瓜是) {nb.prior_prob[是]:.4f}, P(好瓜否) {nb.prior_prob[否]:.4f}) print(f\n测1样本的后验概率) print(fP(好瓜是|测1) {posterior[是]:.8f}) print(fP(好瓜否|测1) {posterior[否]:.8f}) print(f\n最终分类结果测1是【{pred_label}】瓜)4.运行结果
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

中建西部建设广通讯网站卖花网站源码

企业数字化展厅互动问答系统——采用 Anything-LLM 驱动 在现代企业展厅中,访客不再满足于静态展板和固定讲解。他们希望像使用智能助手一样,随时提问:“你们的核心技术有哪些?”“这款产品的交付周期是多久?”“有没有…

张小明 2026/1/2 2:21:27 网站建设

网站模板 php做网站数据库怎么做

第一章:Open-AutoGLM广域网配置概述Open-AutoGLM 是一款面向自动化广域网(WAN)部署的开源框架,专为大规模分布式环境下的网络配置管理而设计。其核心能力在于通过声明式配置语言实现跨地域网络设备的统一编排,支持主流…

张小明 2026/1/2 2:21:26 网站建设

兴宁网站设计微商城网站建设推广

EmotiVoice语音合成系统灰度发布流程最佳实践 在AIGC浪潮席卷内容生产的今天,用户对“声音”的期待早已超越了简单的信息播报。无论是虚拟主播的一句带笑的开场白,还是游戏角色在危急时刻颤抖的呐喊,情感化的语音正成为沉浸式体验的核心要素。…

张小明 2026/1/2 2:21:28 网站建设

哪家网站专门做折扣销售建筑工程网官方网站

OFD.js深度解析:5步掌握前端OFD文档处理核心技术 【免费下载链接】ofd.js 项目地址: https://gitcode.com/gh_mirrors/of/ofd.js 你知道吗?在浏览器里直接打开OFD文件,就像在手机上直接预览PDF一样简单!今天我要带你深入探…

张小明 2026/1/2 2:21:25 网站建设

宿州做网站的公司派代网

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有实…

张小明 2026/1/2 2:21:30 网站建设

手机网站怎么制作软件网络设计报告书

Arcade-plus谱面编辑器深度评测:专业级音乐节奏创作工具 【免费下载链接】Arcade-plus A better utility used to edit and preview aff files 项目地址: https://gitcode.com/gh_mirrors/ar/Arcade-plus Arcade-plus是一款专为Arcaea谱面设计打造的高效编辑…

张小明 2026/1/2 2:21:31 网站建设