阿里巴巴大数据之路读书笔记——用户画像的定义

Posted manor的大数据奋斗之路

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里巴巴大数据之路读书笔记——用户画像的定义相关的知识,希望对你有一定的参考价值。

用户画像
在阿里巴巴旗下的淘宝网、虾米音乐上都不乏个性化推荐场景,淘
宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品
的目标人群和人群偏好,从而对用户投其所好。对用户有深刻的理解是
网站推荐、企业经营制胜的重要 环。在传统企业中,获取用户的反馈
信息耗时长、结果缺失,是个难关。然而 随着大数据热潮的兴起,快
速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作
为个性化技术的重要基础,相比于传统企业的购物篮分析、问卷调查,
在用户 画像的塑造上具备技术的天然优势。
阿里全域数据提供了足够的数据基础,正是基于用户网购、搜索和
娱乐影音等行为的数据洞察,可以利用数据分析辅以算法的视角对用户
进行 360 全方位的特征刻画。那么,究竟什么是用户画像?通俗地讲,
用户画像即是为用户打上各种各样的标签,如年龄、性别、职业、商
品牌偏好、商品类别偏好等。这些标签的数目越丰 ,标签越细化,对
用户的刻画就越精准。例如,分析某用户为女性,可能仅仅是将与女
相关的服装、个人护理等商品作为推荐结果反馈给该用 户:但若根据用
户以往的浏览、交易等行为挖掘出进一步的信息,如用户的地理信息为
海南,买过某几类品牌的服装,则可以将薄款的、品牌风格相似的服装
作为推荐结果。
般而言,用户画像可以分为基础属性、购物偏好、 社交关系、财
富属性等几大类。对于刻画淘宝网购用户,则应侧重于他们在网购上的
行为偏好。下面以用户女装风格偏好为例,讲解该用户标签是如何基于
全域数据产出的。
购买过淘宝商品的读者对商品详情页都不会陌生,一件商品的关键
特征除了反映在商品图片和详情页中以外,主要可以采集的信息是商品
的标题以及参数描述。女装有哪些风格?首先需要将女装行业下的商品
标题文本提取出来,对其进行分词,得到庞大的女装描绘词库。然而,
淘宝商品的标题由卖家个人撰写,并不能保证其中的词语都与商品风格
描述相关。因此,对于所得到的女装描绘词库,首先,需要根据词语权
重去除无效的停用词,方法如计算 TF-IDF 值。其次,在女装商品的参
数描述中,如果已经包含了一种商品风格,例如“通勤”“韩版”等常
见风格,那么通过计算词库中词语与参数描述中风格词的相似度,可以
过滤得到女装风格词库,利用无监督机器学习如 LDA 等方法可以计算
种风格所包含的词汇及这些词汇的重要性。那么 买家偏好什么风
格昵?在淘宝网上,买家拥有浏览、搜索、点击、收藏、加购物车以
交易等多种行为,针对每种行为赋予不同的行为强度(比如浏览行为强
度弱于交易行为),再考虑该商品的风格元素组成,就能够通过合理的
方式获知买家对该风格的偏好程度了。
对于这样的商品偏好计算,数据挖掘人员需要仔细分析用户偏好的
商品的类型、品牌、风格元素、下单时间,这 系列行为可以构成复杂
的行为模块。同理,利用机器学习算法,可以从用 户行为中推测其身份,
例如男生和女生、老年与青年偏好的商品和行为方式存在 别,根据
定的用户标记,最后能够预测出用户的基础身份信息。

以上是关于阿里巴巴大数据之路读书笔记——用户画像的定义的主要内容,如果未能解决你的问题,请参考以下文章

阿里巴巴大数据之路读书笔记——事实表设计的八大原则

阿里巴巴大数据之路读书笔记——事实表设计的八大原则

大数据读书——《淘宝技术这十年》读书笔记

大数据学习总结竞争对手分析-阿里云画像分析

《用户网络行为画像》读书笔记

《写给大忙人的hadoop2》读书笔记大数据定义