网站小样用什么做梁山网站建设多少钱-吉安市网站建设公司-Seo优化

网站小样用什么做,梁山网站建设多少钱,专建网站,百度网盟推广步骤一、算法介绍朴素贝叶斯是基于贝叶斯定理的特征条件独立假设分类算法#xff0c;通过先验概率和特征条件概率计算后验概率#xff0c;适用于文本分类和混合特征数据。特点#xff1a;核心假设#xff1a;特征条件独立性假设#xff08;朴素之处#xff09;计算高效#…一、算法介绍朴素贝叶斯是基于贝叶斯定理的特征条件独立假设分类算法通过先验概率和特征条件概率计算后验概率适用于文本分类和混合特征数据。特点核心假设特征条件独立性假设朴素之处计算高效训练和预测时间复杂度低内存友好仅需存储概率参数可解释性概率输出直观易懂多场景支持离散、连续和混合特征平滑处理可避免零概率问题小样本在小数据集上表现良好应用领域文本分类垃圾邮件过滤、新闻分类、情感分析推荐系统商品推荐、内容推荐医学诊断疾病预测、症状分析金融风控欺诈检测、信用评估工业检测故障诊断、质量控制自然语言处理文档分类、主题识别生物信息学基因分类、蛋白质分析实时系统需要快速响应的应用场景算法原理朴素贝叶斯算法基于贝叶斯定理进行推导P(Y∣X) 为后验概率已知特征 X 下属于类别 Y 的概率P(X∣Y)为似然概率类别 Y 下特征 X出现的概率P(Y)为先验概率类别 Y的初始概率P(X) 为证据特征 X出现的总概率算法“朴素”之处在于假设各特征条件独立该假设将复杂的联合概率分解为多个独立特征概率的乘积大幅简化了计算。二、应用朴素贝叶斯西瓜分类器1.数据准备2.对于离散特征用频率估计连续特征用高斯分布离散特征处理方法对于分类问题中的离散特征如色泽、根蒂等通常使用多项式朴素贝叶斯或伯努利朴素贝叶斯1. 核心公式多项式分布参数说明Ny,v类别 y 中特征 xi取值为 v 的样本数Ny类别 y 的总样本数K特征 xi 的可能取值个数α平滑参数α1α1 时为拉普拉斯平滑连续特征处理方法对于连续特征如密度、含糖率采用高斯朴素贝叶斯1. 核心假设假设连续特征在每个类别下服从正态分布高斯分布。2. 概率密度函数参数说明μy类别 y 下特征 xi 的均值σy类别 y 下特征 xi 的标准差xi待预测样本的特征值3.代码实现import numpy as np import pandas as pd from scipy.stats import norm # 正态分布概率密度计算 # 构建西瓜数据集3.0 data { 色泽: [青绿, 乌黑, 乌黑, 青绿, 浅白, 青绿, 乌黑, 乌黑, 乌黑, 青绿, 浅白, 浅白, 青绿, 浅白, 乌黑, 浅白, 青绿], 根蒂: [蜷缩, 蜷缩, 蜷缩, 蜷缩, 蜷缩, 稍蜷, 稍蜷, 稍蜷, 硬挺, 硬挺, 硬挺, 稍蜷, 蜷缩, 稍蜷, 稍蜷, 蜷缩, 硬挺], 敲声: [浊响, 沉闷, 浊响, 沉闷, 浊响, 浊响, 沉闷, 浊响, 清脆, 清脆, 浊响, 沉闷, 浊响, 清脆, 沉闷, 浊响, 沉闷], 纹理: [清晰, 清晰, 清晰, 清晰, 清晰, 清晰, 稍糊, 清晰, 稍糊, 模糊, 模糊, 稍糊, 清晰, 模糊, 稍糊, 清晰, 稍糊], 脐部: [凹陷, 凹陷, 凹陷, 凹陷, 凹陷, 稍凹, 稍凹, 凹陷, 平坦, 平坦, 平坦, 稍凹, 凹陷, 平坦, 稍凹, 凹陷, 平坦], 触感: [硬滑, 硬滑, 硬滑, 硬滑, 硬滑, 软粘, 软粘, 硬滑, 软粘, 硬滑, 软粘, 硬滑, 硬滑, 硬滑, 软粘, 硬滑, 硬滑], 密度: [0.697, 0.774, 0.634, 0.608, 0.556, 0.403, 0.481, 0.437, 0.666, 0.243, 0.245, 0.343, 0.639, 0.657, 0.360, 0.593, 0.719], 含糖率: [0.460, 0.376, 0.264, 0.318, 0.215, 0.237, 0.149, 0.211, 0.091, 0.267, 0.057, 0.099, 0.161, 0.198, 0.370, 0.042, 0.103], 好瓜: [是, 是, 是, 是, 是, 是, 是, 是, 否, 否, 否, 否, 否, 否, 否, 否, 否] } df pd.DataFrame(data) # 待预测样本测1与样本1完全一致 test_sample { 色泽: 青绿, 根蒂: 蜷缩, 敲声: 浊响, 纹理: 清晰, 脐部: 凹陷, 触感: 硬滑, 密度: 0.697, 含糖率: 0.460 } class NaiveBayesWatermelon: def __init__(self, df, label_col好瓜): self.df df self.label_col label_col self.labels df[label_col].unique() # 标签[是, 否] self.discrete_cols [色泽, 根蒂, 敲声, 纹理, 脐部, 触感] # 离散属性 self.continuous_cols [密度, 含糖率] # 连续属性 # 存储先验概率、离散属性条件概率、连续属性的均值/方差 self.prior_prob {} # 先验概率 P(好瓜是/否) self.discrete_cond_prob {} # 离散属性条件概率 P(属性值|标签) self.continuous_params {} # 连续属性的均值和方差 (mu, sigma²) # 初始化计算 self._calc_prior_prob() self._calc_discrete_cond_prob() self._calc_continuous_params() # 步骤1计算先验概率 P(好瓜是/否) def _calc_prior_prob(self): total len(self.df) for label in self.labels: self.prior_prob[label] len(self.df[self.df[self.label_col] label]) / total # 步骤2计算离散属性的条件概率拉普拉斯平滑 def _calc_discrete_cond_prob(self): for col in self.discrete_cols: self.discrete_cond_prob[col] {} # 该属性的所有唯一取值 all_vals self.df[col].unique() n_vals len(all_vals) # 属性取值数量拉普拉斯平滑分母用 for label in self.labels: self.discrete_cond_prob[col][label] {} # 该标签下的样本数 n_label len(self.df[self.df[self.label_col] label]) for val in all_vals: # 该标签下属性val的样本数 n_val_label len(self.df[(self.df[self.label_col] label) (self.df[col] val)]) # 拉普拉斯平滑P (n_val_label 1) / (n_label n_vals) self.discrete_cond_prob[col][label][val] (n_val_label 1) / (n_label n_vals) # 处理未出现在训练集的取值兜底 self.discrete_cond_prob[col][label][unknown] 1 / (n_label n_vals) # 步骤3计算连续属性的均值和方差正态分布参数 def _calc_continuous_params(self): for col in self.continuous_cols: self.continuous_params[col] {} for label in self.labels: # 该标签下的连续属性值 vals self.df[self.df[self.label_col] label][col] mu vals.mean() # 均值 sigma2 vals.var() # 方差 self.continuous_params[col][label] (mu, sigma2) # 步骤4计算单个样本的后验概率 def _calc_posterior_prob(self, sample): posterior {} for label in self.labels: # 先验概率 prob self.prior_prob[label] # 1. 乘离散属性的条件概率 for col in self.discrete_cols: val sample[col] # 若取值不在训练集用unknown的概率 if val in self.discrete_cond_prob[col][label]: prob * self.discrete_cond_prob[col][label][val] else: prob * self.discrete_cond_prob[col][label][unknown] # 2. 乘连续属性的正态分布概率密度 for col in self.continuous_cols: val sample[col] mu, sigma2 self.continuous_params[col][label] sigma np.sqrt(sigma2) # 正态分布概率密度 prob * norm.pdf(val, locmu, scalesigma) posterior[label] prob return posterior # 预测样本类别 def predict(self, sample): posterior self._calc_posterior_prob(sample) # 取后验概率最大的标签 pred_label max(posterior, keyposterior.get) return pred_label, posterior # 初始化朴素贝叶斯分类器 nb NaiveBayesWatermelon(df) # 预测“测1”样本 pred_label, posterior nb.predict(test_sample) # 输出结果 print( 朴素贝叶斯分类结果 ) print(f先验概率P(好瓜是) {nb.prior_prob[是]:.4f}, P(好瓜否) {nb.prior_prob[否]:.4f}) print(f\n测1样本的后验概率) print(fP(好瓜是|测1) {posterior[是]:.8f}) print(fP(好瓜否|测1) {posterior[否]:.8f}) print(f\n最终分类结果测1是【{pred_label}】瓜)4.运行结果

网站小样用什么做梁山网站建设多少钱

中建西部建设广通讯网站卖花网站源码

网站模板 php做网站数据库怎么做

兴宁网站设计微商城网站建设推广

哪家网站专门做折扣销售建筑工程网官方网站

宿州做网站的公司派代网

手机网站怎么制作软件网络设计报告书