openGauss 是一种开源的关系型数据库管理系统(RDBMS),它起源于 PostgreSQL。openGauss 旨在提供高性能、高可用性和企业级功能。最初由华为开发,后来被开源给社区。
在大多数数据库的 SQL 优化器中,一个常见问题是对 EXISTS 子查询 的低效处理。以下是一个带有 EXISTS 子查询的 SQL 语句示例。该查询从 emp_subsidiary 表中检索与 employee 表中的 salary、grade_id 和 department_id 匹配的记录。
select *
from emp_subsidiary a
where exists (select ‘x’
from employee b
where a.emp_salary = b.emp_salary and
b.emp_grade = a.emp_grade and
a.emp_dept = b.emp_dept)
以下是查询计划;完成该查询需要 10.35 秒。
查询计划显示了一个 Hash Inner Join,其中包含对 emp_subsidiary 表的顺序扫描(sequential scan)和对 employee 表的顺序扫描。该查询计划的性能看起来是合理的,如果不引入新的索引,性能将无法进一步提升。
有人可能会建议将 SQL 重写为使用 IN 语句,以查看查询是否可以改进,如下所示:
select *
from emp_subsidiary a
where (a.emp_salary, a.emp_grade, a.emp_dept) in (select b.emp_salary,
b.emp_grade,
b.emp_dept
from employee b)
重写后的 SQL 并未生成新的查询计划,且未观察到性能提升。为了解决这个问题,让我进一步将原始 SQL 语句重写为带有 INTERSECT 语句的子查询。
显然,重写后的 SQL 在子查询中引入了一个额外的操作,即 employee 表与 emp_subsidiary 表进行交集运算。这意味着只有 employee 表和 emp_subsidiary 表之间基于 emp_salary、emp_grade 和 emp_dept 的交集记录会被返回。因此,子查询的结果集大幅减少,从而显著降低了高成本的 Hash Aggregate 操作。
select *
from emp_subsidiary a
where (a.emp_salary, a.emp_grade, a.emp_dept) in (select b.emp_salary,
b.emp_grade,
b.emp_dept
from employee b
intersect
select a.emp_salary,
a.emp_grade,
a.emp_dept
from emp_subsidiary a)
重写后的 SQL 需要 4 秒 完成,其查询计划如下。与原始查询计划相比,新计划略显复杂。然而,Hashed Aggregate 操作的成本显著低于原始 SQL,实际执行时间也反映了这一改进。
这种语法重写方法只有在 INTERSECT 操作引入的开销被其显著减少的子查询结果集所抵消时才有用。
重写后的 SQL 比原始 SQL 快 2 倍以上。这种优化也可以通过使用 Tosska SQL Tuning Expert 在 openGauss 中实现。
Tosska SQL Tuning Expert Pro (TSEG Pro™) for openGauss® – 珠海图思科软件有限公司