树型结构的四种建模方法

Posted 2022-12-02 lele5000

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了树型结构的四种建模方法相关的知识，希望对你有一定的参考价值。

对于组织架构中的员工层次关系我们应该怎么建模呢？

如下图所示：

此类结构通常有两个主要特点：

1、一个孩子有且只有一个父亲

2、树的深度不确定

为了解决这种结构，我们一般会建一张下面的表：

方案一(Adjacency List)

CREATE TABLE Employees(
employee_id int,

employee_name varchar2(100),

parent_id int

);

每个员工在Employees表中会有一条记录，并通过parent_id来记录其直属领导的employee_id，这样做很简单明了，但是却存在一些弊端。

考虑如下问题：

1、如何得到某个员工的直属领导？

２、如何得到某个领导的直属下属？

３、如何得到某个领导全部下属(下属的下属)？

问题1、２都很简单，一次自连接就解决了：

1、

select par.employee_id,par.employee_name 
from employees par,employees self
where self.parent_id=par.employee_id
and self.employee_id=3201

2、

select child.employee_id,child.employee_name 
from employees child,employees self 
where child.parent_id=self.employee_id 
and self.employee_id=1010

但问题3呢？

两种人会有两种做法，一种觉得可以在程序里做，把问题2的SQL循环执行最终把结果拼起来就OK了；

一种是觉得我可以使用多次自连接，比如我知道这下领导最多有两级下属，我就可以这样做：

select child.employee_id,child.employee_name,child1.employee_id,child1.employee_name

from employees self inner join employees child on child.parent_id=self.employee_id

left join employees child1 on child1.parent_id=child.employee_id and

where self.employee_id=1010

上面两种方法看似都可以解决问题，但是别忘了此类树结构的一个很重要的特点，那就是深度的不确定性(就算确定，如果层次很深，20级)，

性能及可扩展性将是一个很大的问题。

那怎么办呢？一时间好像看起来别无他法啊。

好消息是使用Oracle 10g及以上或者SQL Server 2005及以上的朋友可以直接使用数据库特有的SQL特性来解决这个问题了。

例如在Oracle中可以使用层次查询

select EMPLOYEE_ID, employee_name
  from employees 
 start with employee_id = 1
 connect by  prior employee_id = parent_id

那使用mysql或者其不支持层次查询的数据库怎么办呢？难道只能用前面两种笨方法？

答案是否定的，你需要重新设计你的表模型。

How to design?

方案二(Path Enumeration)

CREATE TABLE Employees_Path(
employee_id int,

employee_name varchar2(100),

path varchar2(1000)

);

此种方案借助了unix文件目录的思想，如下图所示：

我们需要做的就是正确的维护这个PATH值，现在如果我们要查询任意领导(比如Michele)的所有下属就只需要这样即可：

select * from Employees_Path where path like '/1/_%'

同样的，如果我们需要查询任意员工(比如Chris)的所有领导也只需要这样即可：

select * from Employees_Path where '/1/2/5/' like path||'%' and path<>'/1/2/5/'

缺点：

1、PATH值由程序来维护，无法在数据库一级确保数据的有效性

2、当树的层级太深有可能会超过PATH字段的长度，所以其能支持的最大深度并非无限的。

方案三(Nested Sets)

CREATE TABLE EMPLOYEES_NESTEDSETS(
EMPLOYEE_ID INT,
EMPLOYEE_NAME VARCHAR2(100),
NSLEFT INT,
NSRIGHT INT
);

该方案采用深度优先遍历给树中的每个节点分配两个值，分别存在NSLEFT和NSRIGHT中。如下图所示

每个节点左边的的值存放在NSLEFT中，右边的值存放在NSRIGHT中；节点左边的值比该节点的所有子孙节点值都要小，节点右边的值比该节点的所有子孙节点值都要大。

例如Hell Mayes左边的值为2，其比Hell Mayes的所有子孙节点的值都要小(3,4,5,10,6,7,8,9)

Hell Mayes右边的值为11，其比Hell Mayes的所有子孙节点的值都要大(3,4,5,10,6,7,8,9)

有了这个规则之后，如果想要查找某个节点的子孙或都祖先就非常容易了。

回到我们前面的题目中来，假设我要查找Helen Mayes的所有下属员工，我们可以这样：

select *
  from EMPLOYEES_NESTEDSETS par, 
  EMPLOYEES_NESTEDSETS child
 where child.nsleft > par.nsleft
   and child.nsleft < par.nsright
   and par.EMPLOYEE_NAME = 'Helen Mayes'

那如果我们要查找Helen Mayes的所有领导呢？

select *
  from EMPLOYEES_NESTEDSETS par, 
  EMPLOYEES_NESTEDSETS child
 where child.nsleft > par.nsleft
   and child.nsleft < par.nsright
   and child.EMPLOYEE_NAME = 'Angela Richards'

Nested Sets这种方案还有一个优点就是，当你删除了一个非叶子节点的时候，该节点的所有子孙节点会自动成为该节点父节点的子孙，并同样满足前面所说的条件。

缺点：

在Adjacency List方案中很好回答的问题，在Nested Sets中却变得困难起来

比如我想要查找任意领导(比如Helen Mayes)的直属下属，在Nested Sets中你需要这样做

select *
  from EMPLOYEES_NESTEDSETS par
 inner join EMPLOYEES_NESTEDSETS child
    on child.nsleft > par.nsleft
   and child.nsleft < par.nsright
  left join EMPLOYEES_NESTEDSETS tmp
    on child.nsleft > tmp.nsleft
   and child.nsleft < tmp.nsright
   and tmp.nsleft > par.nsleft
   and tmp.nsleft < par.nsright
 where par.EMPLOYEE_NAME = 'Helen Mayes'
   and tmp.employee_id is null

怎么样，够复杂吧？　其逻辑就是　首先找到Helen Mayes的所有下属，然后在去查找这些下属没有属于Helen Mayes下属的上级.........WTF...........

另外，移动和新增加节点也比较复杂

比如我们要在Helen Mayes和Chris Jones之间插入一名员工Scott，如下图所示