IN & EXISTS
IN和EXISTS,在子查询的过程中,二者可以说是SQL关键字中使用比较频繁的语句了,而且,在很多TA面试的时候,都会提问关于二者之间使用场景的区别。
之前在接触这部分知识点的时候,有的人说IN的性能更快,有的说EXISTS更快,其实这两种说法都不对,要看具体的应用场景的。
语法
IN子查询语法:
代码语言:txt复制SELECT 列名称(s) FROM 表来源
WHERE 列名称 IN ( SELECT 列名称(s) FROM 表来源...)
EXISTS子查询语法:
代码语言:txt复制SELECT 列名称(s) FROM 表来源
WHERE EXISTS (SELECT 列名称(s) FROM 表名称 WHERE 表名称.KEY=表来源.KEY)
使用实例
案例数据:
在白茶本机的数据库中存在名为“CaseData”的数据库。
“Dim_Date“日期表、"Dim_Product"产品表、"Fact_Sales"销售事实表。
例子1:
查询产品表中,所有有销售事实的产品信息。
代码语言:txt复制SELECT * FROM Dim_Product
WHERE ProductID IN (SELECT ProductID FROM Fact_Sales)
结果如下:
那么这段语法的执行顺序是什么?
子查询→内外表笛卡儿积→筛选
首先执行的是内部的子查询,先查找出在Fact事实表中存在的产品ID。
其次,外部产品表的所有列和事实表的查询结果生成一个笛卡尔积。
最后,进行条件筛选,查找出产品表ProductID与事实表ProductID相等结果记录。
因此,使用IN进行子查询,内部的表(即事实表)数据越小,速度越快。
例子2:
使用EXISTS执行上面的操作。
代码语言:txt复制SELECT * FROM Dim_Product
WHERE EXISTS (SELECT ProductID FROM Fact_Sales WHERE Fact_Sales.ProductID=Dim_Product.ProductID)
结果如下:
EXISTS的执行顺序是这样的:
检测子查询的行→遍历循环外表→判断外表与子查询是否匹配
首先执行的是遍历循环外表(即产品表)。
然后判断外表(产品表)中的条件列是否与事实表中的条件列相匹配,如果匹配,则会出现在结果集中,否则不会出现在结果中。
因此,使用EXISTS进行查询的时候,通常是外表的数据越小,性能越快。
二者之间还是有一些其他小细节的区分,这里补充一下:IN不会对NULL(即空值)进行处理,而EXISTS是看内外条件是否相等,因此屏蔽了NULL。使用NOT IN的时候,对内外表都进行了扫描,没有使用索引;而NOT EXISTS子查询依然可以使用索引,因此,无论哪个表的数据量大,NOT EXISTS的性能都要比NOT IN要快。
这里是白茶,一个PowerBI的初学者。