从数据库底层说起，探究用户画像系统的储存该如何选型

Posted 2021-10-29 YO哥教你大数据

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了从数据库底层说起，探究用户画像系统的储存该如何选型相关的知识，希望对你有一定的参考价值。

1.什么是用户画像

在给用户画像做定义之前，我们先来了解一下什么是推荐系统

场景：

在现在的互联网时代，网上购物已经称为常态，当我们在各大电商平台购物的时候，不难发现这样一个现象。当你搜索某个上面进行浏览的时候，点击目标商品，之后返回到首页，很大概率你就可以发现，你刚才搜索的商品的相关产品已经在首页的推荐栏目。例如，你购买了一件护肤品面霜，回到首页推荐处，系统可能就会给你推荐口红或者相关护肤品。又例如当你搜索用户画像书籍的时候，推荐栏目就会出现有关用户画像的书籍。这些功能就叫做推荐，而完成这些行为的即为推荐系统。

本质：

推荐系统就是对用户的浏览行为进行记录分析，并基于这些行为对用户将要购买的商品进行预测。老王购买了用户画像的书籍，那么老王便与这本书之间产生一个连接。小丽购买了护肤品，那么小丽便于这个护肤品之间产生了连接。而推荐系统就是根据一些算法去预测用户与商品之间还未产生的连接。

来看一张简单的用户画像表：

客户ID	客户年龄	所在省份	生日	性别	购物喜好
001	22	广东	20000821	男	电子产品
002	22	北京	20000908	男	科技类书籍
003	23	河北	19991201	女	化妆品

给用户画像下定义：

用户画像是对用户的一种标注，通过给用户打上标签的形式来描述用户
这个标签可以是一个人的年龄，性别，收入情况，也可以是一个人的购物倾向或者是常居住地
总而言之我们能想到的用来描述一个人的各方面特征的都可以算作是画像的范畴

2.用户画像在储存方面的要求

画像表相对比较稀疏，一般一个用户画像的项目至少有近百个标签，而大部分用户都应该只打上一部分呢标签，所以总体来说画像表应该较为稀疏
大部分标签使用ID进行匹配查找，定位到用户标签再找到用户群体
进行聚合统计的需求较多
需要数据库可以按key查询，聚合统计查询，以及多条件组合查询
稀疏表的储存不应该占用太多空间资源

3.一号选手：mysql

mysql这个数据库大家应该都不陌生，这里我们从这个数据库的底层结构开始说起，mysql底层所选用的数据结构为B+树，说到B+树这里就不得不提一下另一种数据结构B数

B树介绍：

上图是一个 B树的形式, 每个节点有两个数据元素, 每个节点有三个子节点, 每个叶子节点有两个数据元素

无论是什么形式的 B树, 都具备以下定理, 这四个定理也是保证 B树插入和删除能够平衡的原因

根节点至少两个子节点
每个中间节点都包含 m 个孩子, 每个中间节点都包含 m - 1 个数据元素
最底层的节点称之为叶子节点, 所有叶子节点都位于同一层
所有节点中的数据元素按照大小排列, 所有子节点按照数据元素的大小排列, 父节点的数据元素恰好是子节点数据元素的值域划分点

B树插入规则：

如果当前节点未满, 插入
如果当前节点已满, 分裂节点, 中间大小的值提升, 直到插入根节点
如果根节点也已满, 插入节点成为新的根节点, 层级 +1

B树存在的问题：

因为 B树中所有节点都可携带数据元素, 所以导致性能不稳定
范围查找效率太低

基于B树存在的这些问题，B+树出现了

B+树：

B+树的特性：

有 k 个子树的中间节点, 就可以存放 K 个数据元素(比 B树多一个)
中间节点不保存数据, 只用来索引, 划分子树值域, 所有数据元素都以卫星的形式和叶子节点关联
叶子节点本身按照 Key 有序
所有中间节点的元素都存在于子节点

B+数的优点：

单一节点存储更多的元素, IO 次数变少
所有查询都要查找到叶子节点, 看起来每次都是都是最差情况, 但是三层的 B+树可以存放一百万条数据, 通常 B+树都很低很宽
所有叶子节点是形成有序链表, 范围查询性能极强

B+树与MySql的关系：

聚集索引：

非聚集索引：

MySQL的索引类型：

在 MySQL 中, 有两个引擎, 如下
- MyISAM,引擎, 事务支持很差, 较少使用
- InnoDB,引擎, 事务支持完备, 使用较广泛
InnoDB 的特点
- 任何一张表的数据都自带一个聚集索引
- 默认情况下, 建表必须有主键, 默认的聚集索引以主键为 Key

总的来说，无论是否聚集, MySQL 中的索引都是 B+树结构

MySQL特性总结：

根据 B+树的特性可以知道, 每次在插入的时候都比较复杂, 当数据量增多的时候, 性能衰减会非常明显
B+树是查找树, 其节点之间是有序的, 当需要搜索的时候, 时间复杂度和折半查找一样, 只有 Log2N
B+树的叶子节点构成了一个类似链表的结构, 所以进行范围查找的时候, 不需要回到父节点, 可以直接在子节点中进行, 所以在进行一些复杂查询的时候比较方便范围取数据
因为 MySQL 的主要目的是 OLTP, OLTP 更强调每次操作一条或者多条数据, 所以 MySQL 是行存储的形式, 行存储为了对齐所有的列, 即使某列为 Null, 也依然会有按照数据类型的占位

MySQL存在的问题：