MIMIC-IV查询加速保姆级教程
为什么查询会这么慢?
之前的文章我们提到过,需要对字段建立索引,查询才会快, 以下面的SQL为例
代码语言:javascript复制select * from charteventswhere itemid=226512
上面这个SQL在chartevents表查询itemid,需要整整23秒以上
如果表里没有没有对itemid建立索引,需要对表里所有记录进行比对,才能找到符合条件记录, chartevents表有313645063 条记录, 就要进行 313645063次对比, 慢是正常的
我怎么知道我要查询的这个表的这个字段有没有建立索引
可以看到,只有charttime建立了索引
如何对想要查询的字段建立索引?
要对chartevents的itemid查询加速,就建立这个字段的索引。在navicat (后台回复navicat获取16版本)里面打开这个表,新建查询,输入下面SQL
就新建了itemid的所有,index的名字chartevents_idx02只要不与现有的索引重复就好, 所以只要不是indx01就行。on后面写表名和字段名。
然后点运行(Run),跑下要不少时间,但能够一劳永逸解决查询慢的问题。
这个过程时间比较长,2分钟左右,耐心等待
我们现在看看文章开头的SQL查询速度, 9秒就完成了查询
PostgreSQL 索引
索引是加速搜索引擎检索数据的一种特殊表查询。简单地说,索引是一个指向表中数据的指针。一个数据库中的索引与一本书的索引目录是非常相似的。
拿汉语字典的目录页(索引)打比方,我们可以按拼音、笔画、偏旁部首等排序的目录(索引)快速查找到需要的字。
索引有助于加快 SELECT 查询和 WHERE 子句,但它会减慢使用 UPDATE 和 INSERT 语句时的数据输入。索引可以创建或删除,但不会影响数据。
使用 CREATE INDEX 语句创建索引,它允许命名索引,指定表及要索引的一列或多列,并指示索引是升序排列还是降序排列。
索引也可以是唯一的,与 UNIQUE 约束类似,在列上或列组合上防止重复条目。
CREATE INDEX 命令
CREATE INDEX (创建索引)的语法如下:
代码语言:javascript复制CREATE INDEX index_name ON table_name;
索引类型
单列索引
单列索引是一个只基于表的一个列上创建的索引,基本语法如下:
代码语言:javascript复制CREATE INDEX index_name
ON table_name (column_name);
组合索引
组合索引是基于表的多列上创建的索引,基本语法如下:
代码语言:javascript复制CREATE INDEX index_name
ON table_name (column1_name, column2_name);
不管是单列索引还是组合索引,该索引必须是在 WHERE 子句的过滤条件中使用非常频繁的列。
如果只有一列被使用到,就选择单列索引,如果有多列就使用组合索引。
唯一索引
使用唯一索引不仅是为了性能,同时也为了数据的完整性。唯一索引不允许任何重复的值插入到表中。基本语法如下:
代码语言:javascript复制CREATE UNIQUE INDEX index_name
on table_name (column_name);
局部索引
局部索引 是在表的子集上构建的索引;子集由一个条件表达式上定义。索引只包含满足条件的行。基础语法如下:
代码语言:javascript复制CREATE INDEX index_name
on table_name (conditional_expression);
隐式索引
隐式索引 是在创建对象时,由数据库服务器自动创建的索引。索引自动创建为主键约束和唯一约束。
实例
下面实例将在 COMPANY 表的 SALARY 列上创建索引:
代码语言:javascript复制# CREATE INDEX salary_index ON COMPANY (salary);
现在,用 d company 命令列出 COMPANY 表的所有索引:
代码语言:javascript复制# d company
得到的结果如下,company_pkey 是隐式索引 ,是表创建表时创建的:
代码语言:javascript复制runoobdb=# d company
Table "public.company"
Column | Type | Collation | Nullable | Default
--------- --------------- ----------- ---------- ---------
id | integer | | not null |
name | text | | not null |
age | integer | | not null |
address | character(50) | | |
salary | real | | |
Indexes:
"company_pkey" PRIMARY KEY, btree (id)
"salary_index" btree (salary)
你可以使用 di 命令列出数据库中所有索引:
代码语言:javascript复制runoobdb=# di
List of relations
Schema | Name | Type | Owner | Table
-------- ----------------- ------- ---------- ------------
public | company_pkey | index | postgres | company
public | department_pkey | index | postgres | department
public | salary_index | index | postgres | company
(3 rows)
DROP INDEX (删除索引)
一个索引可以使用 PostgreSQL 的 DROP 命令删除。
代码语言:javascript复制DROP INDEX index_name;
您可以使用下面的语句来删除之前创建的索引:
代码语言:javascript复制# DROP INDEX salary_index;
删除后,可以看到 salary_index 已经在索引的列表中被删除:
代码语言:javascript复制runoobdb=# di
List of relations
Schema | Name | Type | Owner | Table
-------- ----------------- ------- ---------- ------------
public | company_pkey | index | postgres | company
public | department_pkey | index | postgres | department
(2 rows)
什么情况下要避免使用索引?
虽然索引的目的在于提高数据库的性能,但这里有几个情况需要避免使用索引。
使用索引时,需要考虑下列准则:
- 索引不应该使用在较小的表上。
- 索引不应该使用在有频繁的大批量的更新或插入操作的表上。
- 索引不应该使用在含有大量的 NULL 值的列上。
- 索引不应该使用在频繁操作的列上。