图分析现状与探索落地
Posted ljtyxl
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图分析现状与探索落地相关的知识,希望对你有一定的参考价值。
导读:随着大数据的发展,复杂数据关系的分析在传统数据库上难以直观的表达复杂的拓扑关系,应运而生了针对拓扑图数据分析的数据库、图分析工具和图算法。本文主要沿以下几个方面展开分析:
- 图分析的背景
- 图数据库的对比分析
- 图算法概述
- 图分析架构的应用案例
▌图分析背景介绍
万物伊始自带信息,如今人类将这些信息按需求以不同形式存储在可记录、可查看、可计算的容器中,传统的数据库都是按一定类型对某类数据进行行列存储,比如不同人的年龄信息存为一列。但是这种存储结构不方便对人这个主体的所有信息进行一个具象化的描述,比如人的多层层级关系,如图是反欺诈中团伙作案的关联关系图,关联信息是在反欺诈的场景中一类非常有效的关联信息。如某用户A的ip地址为X, 某用户B的ip地址为是X, 用户A和用户B则通过ip地址为相互关联。和一般数值型的信息不同,这种关联表达的是一种结构型的信息。我们把这种关联关系用图表达出来,就构成了一张关联图谱,有时也称为社交网络。在反欺诈场景中,团伙欺诈用常规的方法比较难发现,关联图谱或者说社交网络分析是发现欺诈团伙的重要方法。
图数据分析在人与人之间、机构与机构之间、人与机构之间的应用也十分广泛,比如天眼查。
图被广泛应用于连接数据的网络结构表示。图数据可以在社交系统、生态系统、生物网络、知识图谱、信息系统等应用领域中广泛地获取。随着人工智能技术的不断渗透,图学习(即图上的机器学习)倍受关注。图学习在许多任务上是有效的,如分类、链接预测和匹配。一般来说,图学习方法利用机器学习算法来提取图的相关特征。
▌图的结构与计算
图谱本质上是一种语义网络,是一种基于图的数据结构,由顶点集(Vertex)和边集(Edge)组成图(Graph),往用G=(Vertex,Edge)表示,按数学表述为G=(V,E,A,X) ,其中 V={v1,v2……,vn} 是节点集合,E=e_ij 表示边的集合,A 是大小为|V|×|V|的邻接矩阵,用于表示节点之间的连接关系,如果 e_ij∈E,则 A_ij=1,X 是大小为|V|×d 的特征矩阵,X 的第 i 行 X_i:表示第 i 个节点的属性特征,其中 d 是属性的维度。在现实生活中顶点V被定义为实体,有可能是某个公司、某个人,而边E则表示人与人,机构与机构的一种关系。并且顶点和边都是可以带属性P的,比如,社交网络中异常的账号可能有色情、赌博等标签。账号可以有注册时长的属性,所属用户年龄属性等。而好友关系的边则可以有好友建立时间点的属性。点边均只有一种类型的图称为同构图,比如转账网络中只有卡号一种点类型,并且只有转账关系这一种边类型,因此转账网络为同构图。除了同构图之外的图均为异构图。如微信支付的交易网络中,用户账号间的交易既可以转账,也可以是红包或者面对面,因此支付交易网络的边不仅有一种类型,微信支付的交易网络是异构图。
三元组的知识库组成的结构
- 域domain:类型的集合,是对某一领域所有类型的抽象
- 类型type:具有相同特点或属性实体集合的抽象
- 关系relation:实体与实体之间的抽象
- 实体entity:对客观个体的抽象
- 属性property:是对实体与实体之间关系的抽象
- 值value:用来描述实体的,可分为文本型和数值型
图结构存储分析的缺点:
- 比较依赖大量的结构化数据:知识图谱需要依赖一个庞大的数据网,根据用户的信息,通过实体信息,找到一个最接近用户需要的信息,推荐给用户。
- 依赖实体识别的准确性:实体识别的准确性是最后能否解决用户问题的基础。
- 构建知识库遍历的逻辑:如何构建清晰的遍历逻辑,能快速搜索到需要的信息。
- 实体的歧义性问题:相同实体可能在不同的场景下,意思会不一样,如何能消除实体的的歧义性问题,也是图谱构建过程中需要重视的环节。
构建三元组结构图谱的优点:
- 通过自助的推理机制,可以推导新的实体之间的关系,通过新实体的关系,可以让机器学习更多的实体关系,丰富知识图谱的架构。
- 三元组的结构路径,更容易让人和机器理解,超过三元组的路径,机器学习的逻辑会更复杂,也更容易把相关的数据混淆。
。。。。。。
后续请看分享的有道地址
文档:图分析现状与探索落地.note
链接:http://note.youdao.com/noteshare?id=8b9a52b9492b6e6fbb7abef3dbf10226&sub=D37CE65391BF4AF3BEFD38BCE42CA829
以上是关于图分析现状与探索落地的主要内容,如果未能解决你的问题,请参考以下文章
TiDB 在小米的落地及云原生探索丨PingCAP DevCon 2021 回顾