北京知名网站软件开发app的公司

张小明 2025/12/31 8:21:30
北京知名网站,软件开发app的公司,跨境电商登录入口,网站公司技术交接文章目录1 简介数据分析目的数据预处理评论去重数据清洗分词、词性标注、去除停用词提取含名词的评论绘制词云词典匹配评论数据情感倾向分析修正情感倾向LinearSVC模型预测情感1 简介 Hi#xff0c;大家好#xff0c;这里是丹成学长#xff0c;今天向大家介绍一个大数据项目…文章目录1 简介数据分析目的数据预处理评论去重数据清洗分词、词性标注、去除停用词提取含名词的评论绘制词云¶词典匹配评论数据情感倾向分析修正情感倾向LinearSVC模型预测情感¶1 简介Hi大家好这里是丹成学长今天向大家介绍一个大数据项目大数据分析电商产品评论数据情感分析选题指导, 项目分享见文末数据分析目的针对用户在电商平台上留下的评论数据对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析并使用LDA主题模型提取评论关键信息以了解用户的需求、意见、购买原因及产品的优缺点等最终提出改善产品的建议。数据预处理评论去重一些电商平台为了避免一些客户长时间不进行评论往往会设置一道程序如果用户超过规定的时间仍然没有做出评论系统就会自动替客户做出评论这类数据显然没有任何分析价值。由语言的特点可知在大多数情况下不同购买者之间的有价值的评论是不会出现完全重复的如果不同购物者的评论完全重复那么这些评论一般都是毫无意义的。为了存留更多的有用语料本节针对完全重复的语料下手仅删除完全重复部分以确保保留有用的文本评论信息。importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportreimportjieba.possegaspsgimportwarnings warnings.filterwarnings(ignore)%matplotlib inline path/home/kesci/input/emotion_analysi7147reviewspd.read_csv(path/reviews.csv)print(reviews.shape)reviews.head()# 删除数据记录中所有列值相同的记录reviewsreviews[[content,content_type]].drop_duplicates()contentreviews[content]数据清洗通过人工观察数据发现评论中夹杂着许多数字与字母对于本案例的挖掘目标而言这类数据本身并没有实质性帮助。另外由于该评论文本数据主要是围绕京东商城中美的电热水器进行评价的其中“京东”“京东商城”“美的”“热水器”“电热水器”等词出现的频数很大但是对分析目标并没有什么作用因此可以在分词之前将这些词去除对数据进行清洗# 去除英文、数字、京东、美的、电热水器等词语strinfore.compile([0-9a-zA-Z]|京东|美的|电热水器|热水器|)contentcontent.apply(lambdax:strinfo.sub(,x))分词、词性标注、去除停用词词是文本信息处理的基础环节是将一个单词序列切分成单个单词的过程。准确地分词可以极大地提高计算机对文本信息的识别和理解能力。相反不准确的分词将会产生大量的噪声严重干扰计算机的识别理解能力并对这些信息的后续处理工作产生较大的影响。中文分词的任务就是把中文的序列切分成有意义的词即添加合适的词串使得所形成的词串反映句子的本意中文分词的关键问题为切分歧义的消解和未登录词的识别。未登录词是指词典中没有登录过的人名、地名、机构名、译名及新词语等。当采用匹配的办法来切分词语时由于词典中没有登录这些词会引起自动切分词语的困难。分词最常用的工作包是jieba分词包jieba分词是Python写成的一个分词开源库专门用于中文分词其有3条基本原理即实现所采用技术。基于Trie树结构实现高效的词图扫描生成句子中汉字所有可能成词情况所构成的有向无环图DAG。采用动态规划查找最大概率路径找出基于词频的最大切分组合。对于未登录词采用HMM模型使用了Viterbi算法将中文词汇按照BEMS 4个状态来标记。# 分词workerlambdas:[(x.word,x.flag)forxinpsg.cut(s)]# 自定义简单分词函数seg_wordcontent.apply(worker)# 将词语转为数据框形式一列是词一列是词语所在的句子ID最后一列是词语在该句子的位置n_wordseg_word.apply(lambdax:len(x))# 每一评论中词的个数n_content[[x1]*yforx,yinzip(list(seg_word.index),list(n_word))]# 将嵌套的列表展开作为词所在评论的idindex_contentsum(n_content,[])seg_wordsum(seg_word,[])# 词word[x[0]forxinseg_word]# 词性nature[x[1]forxinseg_word]content_type[[x]*yforx,yinzip(list(reviews[content_type]),list(n_word))]# 评论类型content_typesum(content_type,[])resultpd.DataFrame({index_content:index_content,word:word,nature:nature,content_type:content_type})提取含名词的评论由于本案例的目标是对产品特征的优缺点进行分析类似“不错很好的产品”“很不错继续支持”等评论虽然表达了对产品的情感倾向但是实际上无法根据这些评论提取出哪些产品特征是用户满意的。评论中只有出现明确的名词如机构团体及其他专有名词时才有意义因此需要对分词后的词语进行词性标注。之后再根据词性将含有名词类的评论提取出来。# 提取含有名词类的评论,即词性含有“n”的评论indresult[[ninxforxinresult[nature]]][index_content].unique()resultresult[[xinindforxinresult[index_content]]]result.head()绘制词云¶绘制词云查看分词效果词云会将文本中出现频率较高的“关键词”予以视觉上的突出。首先需要对词语进行词频统计将词频按照降序排序选择前100个词使用wordcloud模块中的WordCloud绘制词云查看分词效果。由图可以看出对评论数据进行预处理后分词效果较为符合预期。其中“安装”“师傅”“售后”“物流”“服务”等词出现频率较高因此可以初步判断用户对产品的这几个方面比较重视。词典匹配评论数据情感倾向分析匹配情感词情感倾向也称为情感极性。在某商品评论中可以理解为用户对该商品表达自身观点所持的态度是支持、反对还是中立即通常所指的正面情感、负面情感、中性情感。由于本案例主要是对产品的优缺点进行分析因此只要确定用户评论信息中的情感倾向方向分析即可不需要分析每一评论的情感程度。对评论情感倾向进行分析首先要对情感词进行匹配主要采用词典匹配的方法本案例使用的情感词表是2007年10月22日知网发布的“情感分析用词语集beta版”主要使用“中文正面评价”词表、“中文负面评价”“中文正面情感”“中文负面情感”词表等。将“中文正面评价”“中文正面情感”两个词表合并并给每个词语赋予初始权重1作为本案例的正面评论情感词表。将“中文负面评价”“中文负面情感”两个词表合并并给每个词语赋予初始权重-1作为本案例的负面评论情感词表。一般基于词表的情感分析方法分析的效果往往与情感词表内的词语有较强的相关性如果情感词表内的词语足够全面并且词语符合该案例场景下所表达的情感那么情感分析的效果会更好。针对本案例场景需要在知网提供的词表基础上进行优化例如“好评”“超值”“差评”“五分”等词只有在网络购物评论上出现就可以根据词语的情感倾向添加至对应的情感词表内。将“满意”“好评”“很快”“还好”“还行”“超值”“给力”“支持”“超好”“感谢”“太棒了”“厉害”“挺舒服”“辛苦”“完美”“喜欢”“值得”“省心”等词添加进正面情感词表。将“差评”“贵”“高”“漏水”等词加入负面情感词表。读入正负面评论情感词表正面词语赋予初始权重1负面词语赋予初始权重-1。wordpd.read_csv(./word.csv)# 读入正面、负面情感评价词pos_commentpd.read_csv(path/正面评价词语中文.txt,headerNone,sep\n,encodingutf-8,enginepython)neg_commentpd.read_csv(path/负面评价词语中文.txt,headerNone,sep\n,encodingutf-8,enginepython)pos_emotionpd.read_csv(path/正面情感词语中文.txt,headerNone,sep\n,encodingutf-8,enginepython)neg_emotionpd.read_csv(path/负面情感词语中文.txt,headerNone,sep\n,encodingutf-8,enginepython)# 合并情感词与评价词positiveset(pos_comment.iloc[:,0])|set(pos_emotion.iloc[:,0])negativeset(neg_comment.iloc[:,0])|set(neg_emotion.iloc[:,0])# 正负面情感词表中相同的词语intersectionpositivenegative positivelist(positive-intersection)negativelist(negative-intersection)positivepd.DataFrame({word:positive,weight:[1]*len(positive)})negativepd.DataFrame({word:negative,weight:[-1]*len(negative)})posnegpositive.append(negative)# 将分词结果与正负面情感词表合并定位情感词data_posnegposneg.merge(word,left_onword,right_onword,howright)data_posnegdata_posneg.sort_values(by[index_content,index_word])data_posneg.head()修正情感倾向情感倾向修正主要根据情感词前面两个位置的词语是否存在否定词而去判断情感值的正确与否由于汉语中存在多重否定现象即当否定词出现奇数次时表示否定意思当否定词出现偶数次时表示肯定意思。按照汉语习惯搜索每个情感词前两个词语若出现奇数否定词则调整为相反的情感极性。本案例使用的否定词表共有19个否定词分别为不、没、无、非、莫、弗、毋、未、否、别、無、休、不是、不能、不可、没有、不用、不要、从没、不太。读入否定词表对情感值的方向进行修正。计算每条评论的情感得分将评论分为正面评论和负面评论并计算情感分析的准确率。LinearSVC模型预测情感¶将数据集划分为训练集和测试集(8:2)通过TfidfVectorizer将评论文本向量化在来训练LinearSVC模型查看模型在训练集上的得分预测测试集reviews[content_type]reviews[content_type].map(lambdax:1.0ifxposelse0.0)reviews.head()# 模型构建model_tfidfTFIDF(min_df5,max_features5000,ngram_range(1,3),use_idf1,smooth_idf1)# 学习idf vectormodel_tfidf.fit(train_X)# 把文档转换成 X矩阵该文档中该特征词出现的频次行是文档个数列是特征词的个数train_vecmodel_tfidf.transform(train_X) 项目分享:大家可自取用于参考学习获取方式见文末!
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站建设公司 - 百度网页设计实用教程

如何5分钟搭建个人音乐中心:小爱音箱终极玩法指南 【免费下载链接】xiaomusic 使用小爱同学播放音乐,音乐使用 yt-dlp 下载。 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaomusic 还在为音乐会员烦恼?想不想让小爱音箱变成…

张小明 2025/12/28 23:23:47 网站建设

公司网站打不开展馆展示设计公司一般做什么设计

获取地址:Glary Disk Cleaner 专业的智能磁盘清理工具,采用深度扫描引擎,可精准识别并清除系统垃圾、浏览器缓存、无效注册表、软件残留、重复文件、大文件等数十种无用数据。提供安全建议,避免误删关键文件,一键释放…

张小明 2025/12/30 4:10:26 网站建设

东昌府聊城做网站公司宝塔 wordpress 404

终极指南:用shadPS4在电脑上畅玩PS4游戏的完整方案 【免费下载链接】shadPS4 PS4 emulator for Windows,Linux,MacOS 项目地址: https://gitcode.com/gh_mirrors/shad/shadPS4 想要在个人电脑上体验PlayStation 4游戏的魅力吗?shadPS4模拟器为你打…

张小明 2025/12/28 23:22:41 网站建设

宁波建网站模板晋城网站设计人

Alacritty WSL2渲染优化终极指南:3分钟告别卡顿闪烁 【免费下载链接】alacritty A cross-platform, OpenGL terminal emulator. 项目地址: https://gitcode.com/GitHub_Trending/al/alacritty 还在为Alacritty在WSL2环境下的字体模糊、界面撕裂而烦恼吗&…

张小明 2025/12/28 23:22:08 网站建设

手机商城建站系统网站建设静态网站开发试验报告

企业知识管理新利器:Langchain-Chatchat本地问答系统落地案例 在一家中型制造企业的HR办公室里,一位新员工第三次询问“年假怎么算”时,HR专员叹了口气,打开电脑翻出那份38页的《员工手册》PDF。这样的场景每天都在重复——制度文…

张小明 2025/12/28 23:21:34 网站建设

百度微信官网网站模板网站建设费是什么

12月10日,以“数智赋能 智御未来”为主题的第十五届网络安全漏洞分析与风险评估大会(VARA大会)在天津举行。大会由中国信息安全测评中心主办,聚焦网络安全漏洞治理与风险防控新路径。奇安信集团受邀深度参与大会各项议程&#xff…

张小明 2025/12/30 21:21:19 网站建设