商业分析中,如何进行文本挖掘
Posted 用户研究社
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了商业分析中,如何进行文本挖掘相关的知识,希望对你有一定的参考价值。
媛媛大王推荐语:
传统意义上的数据分析更多是对事件表象层面的描述,对于用户潜在动机/真实需求的挖掘,就显得比较滞后且无力。而传统的调研方法虽然可以回答“为什么”,但时间成本高、较难及时进行热点事件背后的洞察。我的好友吴亦凡在这篇文章中,提供了一种通过文本挖掘得出商业洞察的方法,简单易上手,又极具价值。
本文将从商业分析的视角来介绍文本挖掘的实际应用场景,以及一项完整的文本挖掘流程。
本篇的重点以“器”的角度,介绍我珍藏的几款文本挖掘工具,手把手教
你制作一个精美的个性化词云。
下一篇将重点以“术”的角度,以一个具体的案例——特斯拉ModelY 市场口碑分析,来教你完成一个完整的文本分析case,实现商业分析的闭环。
2020年中国网民达到9.04亿,互联网实现了用户的广泛连接与信息的高效传递。这给商业带来的结果是竞争更加充分,越早发现用户需求的你能吃上一块肉,迟了你连汤都喝不着了。就好像今年1月初的A股,我还没上车他就跑到3500点了,再上我也怕去接盘了。
传统意义上的数据分析更多是对事件表象层面的描述,也就是经典三板斧:现状分析、原因分析、预测分析,更多解决“是什么”的问题。而它对于用户潜在动机/真实需求的挖掘,就显得比较滞后且无力,也就是我们更重视的用户“为什么”的问题。
想要清楚用户“为什么”,难道用户访谈不能解决吗?当然可以,但对于热点事件机会转瞬即逝,传统的调研方式就有点用2G网络冲浪的意思。
这场新冠疫情强化了我们直播间购物、短视频娱乐、微博追热点等行为,大家是否留意到这些场景中用户所留下的言语将是一片巨大的商业宝藏。
这个时候要是能够通过实时分析微博、贴吧、直播、评论等海量用户文本,及时了解全网舆情的整体情况,掌握热点传播路径中、挖掘潜在引爆点与驱动力。这将对我们产品和运营同学调整战略和战术起着极大的作用。简单说来就是追热点的能力。
根据用户冲浪后所留下的评论与文章,经过自然语言学的相关处理后,转化成可量化统计的结构化数据。通过更广泛人群的文本挖掘,才能得出比较可靠的、有说服力的商业洞察。
用户在消费产品和服务过程中,都会把历史的评论作为购买决策的依据,同时在消费之后表达真实的产品与服务体验。对于一些热点事件,比如目前关于拼多多23岁女孩猝死,用户可以在社交媒体中表达自己的观点。
这些场景大量出现在我们刷抖音、逛淘宝、看小红书、听云音乐、冲浪微博等中,其中大量的文本信息可以被我们挖掘并利用,作为我们进行商业决策的重要依据。
“市场调研分析”与“用户体验管理”是文本分析最重要的两个应用场景,这相比传统描述性数据分析是一个更生动全面的补充。
图:来源于新浪微舆情
1.市场调研分析
大量文本数据来自于社会化媒体,这些文本除了字面的语义外还包括着人与人之间的关系。所以基于社会媒体中的文本数据进行市场研究,更加能捕捉到用户不经意流露的真实需求。
那通过文本分析的市场调研可以从哪几个维度帮助品牌或者公司呢?《Social Listening Enable Social Business》总结为市场概览、竞品分析、消费者情绪识别、售前支持、购买信号、客户服务与关系维持。
此外,用户画像、发掘意见领袖、消费者情绪识别也是我们进行营销活动中很重要的抓手。
这方面的研究工具都是大家触手可及的,比如百度指数、新浪微舆情、头条实验室,重要的是我们需要在了解业务背景的情况下,使用这些大数据文本分析工具来对我们市场调研分析提供帮助。
做过用户体验管理的朋友们肯定明白,通过满意度调查可以大概清楚目前的用户体验是好还是坏。但这些描述性的统计指标,并无法告诉我们用户为什么会给出好评或者差评。所以我们会从问卷的开放性问题和各种意见反馈中去挖掘原因,但海量的文本如何处理一直是个棘手的问题。通过文本分析中的“主题分析”来对反馈问题进行大致分类,对文本进行“情感分析”来研究各类问题用户的正负面评价。
When:什么时候用户评价比较正面/负面(产品迭代前后)
Where:用户对APP的哪些方面给与了好评,哪些方面不太喜欢
Who:哪些人比较喜欢,哪些人不喜欢?他们都有哪些人物特征
What:用户的核心关注点主要有哪几类,和我们的商业决策有什么关联
三.文本分析的案例
文本分析中最容易入手的就是词云,本期首先教大家不用编程能做出一个高(zhuang)大(bi)上(fan)的个性化词云。话不多说,先来张效果图。
1.文本数据从哪来?
方法2:自己动手写一个python爬虫,脉脉的文章评论、抖音评论、淘宝直播间评论,能在页面上看到的都能给爬下来。Python爬虫篇有机会给大家简单讲讲,崔庆才的《Python3 网络爬虫开发实战》好学好懂
https://cuiqingcai.com/5052.html
。
2.文本数据怎么处理?
常规的文本数据处理会包括分词、词性标注、词频统计、文本分类、情感分析、关键词提取、文本摘要提取。NLPIR(自然语言处理与信息检索平台),这个系统能够一站式解决以上所有的问题。
链接地址:http://103.242.175.216:197/nlpir/
然而,词云的制作只需要知道对关键词进行提取,然后对关键词的词频进行统计。可以直接使用现有的分词软件“微词云”,
https://www.weiciyun.com/
。
我们将爬取下来的文本内容导入微词云后,点击开始分词后系统将自动为你进行文本分词处理,自动过滤大量无效的停用词。
同时,如果你的文本中存在大量“专有名词“,可以在输入框右上角的自定义词典中录入,避免将此类专有名词给错误过滤了。
STEP1:导入待分析的文本
STEP2:处理分词结果
3.词云的制作
经过第2步文本数据处理后,系统左侧根据词频从大到小展示对应关键词。此时你可以根据需要来调整各个关键词的字体、大小、颜色,并且你还能够在右侧词云中调整每个关键词的位置。
STEP1:调整关键词样式
如果你还想给整个词云换一张背景图的话,点击左侧导航栏的形状。图库中存在着大量的背景图可以供你选择,同时你还可以选择“自定义”来使用你自己喜爱的图片背景。图片背景在区分展示不同人群或者不同品牌所对应的关键词时,有着很明显的作用。
STEP2:调整词云背景图
选择具备丰富人物细节的背景图时,制作出来的词云会就会分布散乱,给观看者造成视觉混乱而找不到重点。此时你可以选择在一个常规背景图的基础上,加入一个具备用户特征的插图来实现。点击导航栏的“插图,也可以自定义的上传属于自己的Logo。
STEP3:设置词云插图
好了一张精美的个性化词云大功告成。下一期将通过“特斯拉ModelY 市场口碑分析”来全流程介绍如何进行数据准备、全局分析、精细分析、结论与建议。
--------------------------------------
如果你所在的公司希望得到用户研究/用户体验等领域的项目咨询与服务,如果你所在的产品团队、业务团队需要「以用户中心的工作方法」培训赋能,欢迎加我的微信,我们来聊一聊。如果纯属想谈个天、吐个槽、加个博主留用查看,也欢迎加我们的微信。
以上是关于商业分析中,如何进行文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章
从海量的文本中挖掘有用信息:文本挖掘及应用技巧 学术中国第十二期文本挖掘技能研习营
文本挖掘:中文分词
R语言 数据挖掘-文本分析(1)
文本挖掘及应用技巧——学术中国系列学术培训(第十二期)
文本挖掘篇|利用SVM进行短文本分类
干货分享 |企业如何用文本挖掘技术提升运营效果?