sql>postgresql 的递归查询功能很强大，可以实现传统 sql 无法实现的事情。那递归查询的执行逻辑是什么呢？在递归查询中，我们一般会用到 union 或者 union all，他们两者之间的区别是什么呢？

递归查询的执行逻辑

递归查询的基本语法如下

WITH RECURSIVE ctename AS (
   SELECT /* non-recursive branch, cannot reference "ctename" */
   UNION [ALL]
   SELECT /* recursive branch referencing "ctename" */
)
SELECT ...
FROM ctename ...

其本身也是一个CTE，可以将复杂的查询逻辑进行分离，让整个查询的逻辑更加清晰。对于递归查询而言，分为两部分：

非递归部分。即例子中的 UNION [ALL] 的上半部分
递归部分。即例子中的 UNION [ALL] 的下半部分

递归查询的逻辑如下：

计算非递归部分，其结果将作为递归查询的数据集，也是初始数据集
在第一步计算出来的数据上，执行递归部分，新查询出的数据将作为下次递归执行的数据集。也就是说，每次递归使用的数据集都是上次递归的结果
直到没有新的数据产生后，递归结束
将每一次递归的数据进行聚合，就拿到了最终的数据集

UNION 和 UNION ALL

UNION: 会将本次递归查询到的数据进行内部去重，也会和之前递归查询出的数据进行去重
UNION ALL: 不会对数据进行去重

举个例子

// 创建表
create table document_directories
(
    id         bigserial                                          not null,
    name       text                                               not null,
    created_at timestamp with time zone default CURRENT_TIMESTAMP not null,
    updated_at timestamp with time zone default CURRENT_TIMESTAMP not null,
    parent_id  bigint                   default 0                 not null
);

// 插入示例数据，有两条数据是一样的
INSERT INTO public.document_directories (id, name, created_at, updated_at, parent_id) VALUES (1, '中国', '2020-03-28 15:55:27.137439', '2020-03-28 15:55:27.137439', 0);
INSERT INTO public.document_directories (id, name, created_at, updated_at, parent_id) VALUES (2, '上海', '2020-03-28 15:55:40.894773', '2020-03-28 15:55:40.894773', 1);
INSERT INTO public.document_directories (id, name, created_at, updated_at, parent_id) VALUES (3, '北京', '2020-03-28 15:55:53.631493', '2020-03-28 15:55:53.631493', 1);
INSERT INTO public.document_directories (id, name, created_at, updated_at, parent_id) VALUES (4, '南京', '2020-03-28 15:56:05.496985', '2020-03-28 15:56:05.496985', 1);
INSERT INTO public.document_directories (id, name, created_at, updated_at, parent_id) VALUES (5, '浦东新区', '2020-03-28 15:56:24.824672', '2020-03-28 15:56:24.824672', 2);
INSERT INTO public.document_directories (id, name, created_at, updated_at, parent_id) VALUES (6, '徐汇区', '2020-03-28 15:56:39.664924', '2020-03-28 15:56:39.664924', 2);
INSERT INTO public.document_directories (id, name, created_at, updated_at, parent_id) VALUES (6, '徐汇区', '2020-03-28 15:56:39.664924', '2020-03-28 15:56:39.664924', 2);

使用 UNION ALL 进行数据查询

with recursive sub_shanghai as (
     select id, name, parent_id
     from document_directories
     where id=2
     union all
     select dd.id, dd.name, dd.parent_id
     from document_directories dd
     join sub_shanghai on dd.parent_id=sub_shanghai.id
 )
 select * from sub_shanghai;

结果如下

使用 UNION 进行查询

with recursive sub_shanghai as (
     select id, name, parent_id
     from document_directories
     where id=2
     union
     select dd.id, dd.name, dd.parent_id
     from document_directories dd
     join sub_shanghai on dd.parent_id=sub_shanghai.id
 )
 select * from sub_shanghai;

得到结果如下

我们修改下原始数据，再看下去重逻辑的区别

update document_directories set parent_id = 2 where id=2;

当我们使用 UNION 进行递归查询时，结果并没有发生变化。但是当我们使用 UNION ALL 进行查询时，会一直执行。这是因为 UNION ALL 不会将数据进行去重，而每次递归查询的时候，总归能查询到 {"id": 5, name:"上海", "parent_id": 2} 这条数据，所以递归就没有终止条件。

从而也验证了，UNION 不但会将本次递归查询的数据进行内部去重，也会和之前的递归结果进行去重。