MIMIC-IV 数据查询加速教程

2023-11-28 14:17:27 浏览数 (2)

MIMIC-IV查询加速保姆级教程

为什么查询会这么慢?

之前的文章我们提到过,需要对字段建立索引,查询才会快, 以下面的SQL为例

代码语言:javascript复制
select * from charteventswhere itemid=226512

上面这个SQL在chartevents表查询itemid,需要整整23秒以上

如果表里没有没有对itemid建立索引,需要对表里所有记录进行比对,才能找到符合条件记录, chartevents表有313645063 条记录,  就要进行 313645063次对比, 慢是正常的

我怎么知道我要查询的这个表的这个字段有没有建立索引

可以看到,只有charttime建立了索引

如何对想要查询的字段建立索引?

要对charteventsitemid查询加速,就建立这个字段的索引。在navicat (后台回复navicat获取16版本)里面打开这个表,新建查询,输入下面SQL

就新建了itemid的所有,index的名字chartevents_idx02只要不与现有的索引重复就好, 所以只要不是indx01就行。on后面写表名和字段名。

然后点运行(Run),跑下要不少时间,但能够一劳永逸解决查询慢的问题。

这个过程时间比较长,2分钟左右,耐心等待

我们现在看看文章开头的SQL查询速度, 9秒就完成了查询

PostgreSQL 索引

索引是加速搜索引擎检索数据的一种特殊表查询。简单地说,索引是一个指向表中数据的指针。一个数据库中的索引与一本书的索引目录是非常相似的。

拿汉语字典的目录页(索引)打比方,我们可以按拼音、笔画、偏旁部首等排序的目录(索引)快速查找到需要的字。

索引有助于加快 SELECT 查询和 WHERE 子句,但它会减慢使用 UPDATE 和 INSERT 语句时的数据输入。索引可以创建或删除,但不会影响数据。

使用 CREATE INDEX 语句创建索引,它允许命名索引,指定表及要索引的一列或多列,并指示索引是升序排列还是降序排列。

索引也可以是唯一的,与 UNIQUE 约束类似,在列上或列组合上防止重复条目。

CREATE INDEX 命令

CREATE INDEX (创建索引)的语法如下:

代码语言:javascript复制
CREATE INDEX index_name ON table_name;

索引类型

单列索引

单列索引是一个只基于表的一个列上创建的索引,基本语法如下:

代码语言:javascript复制
CREATE INDEX index_name
ON table_name (column_name);

组合索引

组合索引是基于表的多列上创建的索引,基本语法如下:

代码语言:javascript复制
CREATE INDEX index_name
ON table_name (column1_name, column2_name);

不管是单列索引还是组合索引,该索引必须是在 WHERE 子句的过滤条件中使用非常频繁的列。

如果只有一列被使用到,就选择单列索引,如果有多列就使用组合索引。

唯一索引

使用唯一索引不仅是为了性能,同时也为了数据的完整性。唯一索引不允许任何重复的值插入到表中。基本语法如下:

代码语言:javascript复制
CREATE UNIQUE INDEX index_name
on table_name (column_name);

局部索引

局部索引 是在表的子集上构建的索引;子集由一个条件表达式上定义。索引只包含满足条件的行。基础语法如下:

代码语言:javascript复制
CREATE INDEX index_name
on table_name (conditional_expression);

隐式索引

隐式索引 是在创建对象时,由数据库服务器自动创建的索引。索引自动创建为主键约束和唯一约束。

实例

下面实例将在 COMPANY 表的 SALARY 列上创建索引:

代码语言:javascript复制
# CREATE INDEX salary_index ON COMPANY (salary);

现在,用 d company 命令列出 COMPANY 表的所有索引:

代码语言:javascript复制
# d company

得到的结果如下,company_pkey 是隐式索引 ,是表创建表时创建的:

代码语言:javascript复制
runoobdb=# d company
                  Table "public.company"
 Column  |     Type      | Collation | Nullable | Default 
--------- --------------- ----------- ---------- ---------
 id      | integer       |           | not null | 
 name    | text          |           | not null | 
 age     | integer       |           | not null | 
 address | character(50) |           |          | 
 salary  | real          |           |          | 
Indexes:
    "company_pkey" PRIMARY KEY, btree (id)
    "salary_index" btree (salary)

你可以使用 di 命令列出数据库中所有索引:

代码语言:javascript复制
runoobdb=# di
                    List of relations
 Schema |      Name       | Type  |  Owner   |   Table    
-------- ----------------- ------- ---------- ------------
 public | company_pkey    | index | postgres | company
 public | department_pkey | index | postgres | department
 public | salary_index    | index | postgres | company
(3 rows)

DROP INDEX (删除索引)

一个索引可以使用 PostgreSQL 的 DROP 命令删除。

代码语言:javascript复制
DROP INDEX index_name;

您可以使用下面的语句来删除之前创建的索引:

代码语言:javascript复制
# DROP INDEX salary_index;

删除后,可以看到 salary_index 已经在索引的列表中被删除:

代码语言:javascript复制
runoobdb=# di
                    List of relations
 Schema |      Name       | Type  |  Owner   |   Table    
-------- ----------------- ------- ---------- ------------
 public | company_pkey    | index | postgres | company
 public | department_pkey | index | postgres | department
(2 rows)

什么情况下要避免使用索引?

虽然索引的目的在于提高数据库的性能,但这里有几个情况需要避免使用索引。

使用索引时,需要考虑下列准则:

  • 索引不应该使用在较小的表上。
  • 索引不应该使用在有频繁的大批量的更新或插入操作的表上。
  • 索引不应该使用在含有大量的 NULL 值的列上。
  • 索引不应该使用在频繁操作的列上。

0 人点赞