电商产品评论数据情感分析
Posted keye
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了电商产品评论数据情感分析相关的知识,希望对你有一定的参考价值。
来自:Python数据分析与数据化运营——宋天龙著
1. 分析方法与过程
本次建模针对京东商城上“美的”品牌热水器的消费者评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,得到有价值的内在内容。
2. 评论数据预处理
文本数据的预处理主要由3个部分组成:文本去重、机械压缩去词、短句删除。
2.1 文本去重
1. 文本去重,就是去除文本评论数据中重复的部分。去重的原因:
(1). 一些电商平台避免客户长时间不评论,设置一道程序,用户超过规定时间不评论,系统会自动评论。(比如国美)
(2). 同一个人出现重复评论,比如:同一个人购买多种热水器为了省事,复制粘贴,就会出现在同样或相近的评论,当然不乏有价值的评论,但只是第一条有作用。
(3). 由于语言的特点,大多数情况下,不同人之间有价值的评论不会出现重复,比如:“好好好好好好”,“XX牌热水器 XX升”或者复制、粘贴上一个人的评论,这种评论显然就只有最早评论才有意义(即第一条)
2. 常见文本去重算法及缺陷
许多文本去重算法通过计算文本之间的相似度,以此为基础去重,包括编辑距离去重、Simhash算法去重等。
以上是关于电商产品评论数据情感分析的主要内容,如果未能解决你的问题,请参考以下文章
Python:电商产品评论数据情感分析,jieba分词,LDA模型