MIMIC-IV表结构详解(一)

2023-11-17 15:25:54 浏览数 (2)

之前我们在介绍mimic数据库时候有简单讲过表结构,可以看这篇文章

MIMIC-IV,重症医学数据库介绍和使用说明

今天我们详细讲解下mimic-iv数据库的主要模块,以及各个模块的内容、模块内数据表各个字段的含义,这篇介绍很重要,大家做数据提取和数据分析的基础。往后大家也能用来查询字段含义。

比如这几篇数据提取的教程都依赖对表字段的了解。

MIMIC数据库提取教程-提取某种疾病下的实验室指标

MIMIC数据库提取教程-提取某种疾病下的患者人口统计学指标

因文章较长且微信展示表格不太友好,本文提供pdf版本,公众号回复  “表结构详解01”

一、MIMIC数据档案

MIMIC-IV 被分成“模块”以反映数据的来源。目前有五个模块:

①core – 患者住院信息(即入院和转院) ②hosp – 患者的医院级数据:实验室、微型和电子药物管理 ③icu -ICU 级别数据。这些是事件表,在结构上与 MIMIC-III(图表事件等)相同 ④ed – 来自急诊科的数据 ⑤cxr – 从 MIMIC-CXR 查找表和元数据,允许链接到 MIMIC-IV ⑥note – 去识别的自由文本临床笔记(未公开)

临床上我们真正需要使用的主要还是hosp和icu, 所以这里主要介绍这两个,这两个模块分开主要是为了突出它们的来源。

下载下来是这样 (2.2版本):

【重要】 数据集直接下载!(如果过期请后台留言)

导入数据库后:

二、数据描述(Data Description)

几个核心概念

1、患者标识符:患者包含每个唯一的信息subject_id。subject_id来自医院,是患者病历编号的匿名版本。admissions表包含每个唯一的信息hadm_id。hadm_id来自医院,是分配给每位住院患者的标识符的匿名版本。转移表包含每个唯一的信息transfer_id。transfer_id是一个人工生成的标识符,它被唯一地分配给单个患者的病房住宿。转移表还包含stay_id. 这是一个人工生成的标识符,它对合理连续的护理事件进行分组。

2、日期和时间:在数据库中存储日期和时间的列使用以下两个后缀之一存储:time或date. 如果一列具有time后缀,例如charttime,那么数据分辨率可以精确到分钟。如果该列具有date后缀,例如chartdate,则数据分辨率下降到当天。这意味着chartdate列中的测量值将始终具有 00:00:00 具有小时、分钟和秒值。这并不意味着它是在午夜记录的:它表明我们没有确切的时间,只有日期。

3、日期转换:数据库中的所有日期都已更改,以保护患者的隐私。同一患者的日期将在内部保持一致,但在未来随机分布。发生在当前时间的出生日期不是真实的出生日期。此外,如果患者年龄超过 89 岁,则出现在 1900 年之前的出生日期。在这些情况下,患者首次入院时的年龄已固定为 300 岁。

charttime对比storetime:大多数数据,除了与患者相关的人口统计数据外,都记录了表明观察时间的时间:charttime。charttime可以追溯到纸质图表的使用:为了方便护理人员进行有效观察,将一天分成小时块,并在这些小时块内记录观察结果。因此,任何时候在 04:00 和 05:00 之间进行测量时,数据都会在 04:00 块中绘制,依此类推。这一概念已经延续到数据的电子记录中:即使数据是在 04:23 记录的,在许多情况下,它仍然被记录为在 04:00 发生。

storetime提供有关数据元素本身记录的信息。数据库中的所有观察结果在归档到患者病历之前都必须经过验证。storetime提供此验证发生的确切时间。例如,可以在 04:00 绘制心率图表,但仅在 04:40 进行验证。这表明护理人员在 4:40 验证了测量结果,并表明这是在 04:00 对患者的有效观察。相反,也有可能storetime发生在charttime. 虽然格拉斯哥昏迷量表可能绘制在charttime04:00,观察可能在稍早之前进行并验证(例如 3:50)。同样,验证意味着护理人员认为测量结果准确反映了患者在特定情况下的状态charttime。

①charttime是绘制测量图表的时间。在几乎所有情况下,这是与实际测量时间最匹配的时间。在连续生命体征(心率、呼吸频率、有创血压、无创血压、氧饱和度)的情况下,charttime通常正好是测量时间。 ②storetime是数据记录在数据库中的时间:从逻辑上讲,它发生在 之后charttime,通常是几小时,但通常不会超过这个时间。

4、其他时间:chartdate等价于charttime,除了它不包含任何时间信息(对于这些测量,所有小时、分钟和秒均为 0);admittime分别dischtime是入院和出院时间。deathtime是患者在医院死亡时的死亡时间。如果患者在给定住院期间没有在医院内死亡,deathtime则无效。intime并outtime提供患者进入和离开给定单元的时间。在icusstays表中,单位始终是 ICU。在转诊表中,单位可以是医院的任何病房。对于在一段时间内发生的事件,starttime并endtime提供事件的开始和结束时间。对于医疗输液,这些列表示物质被施用的时期。dod是来自医院数据库的患者死亡日期。transfertime是患者服务发生变化的时间。

三个重要ID

mimic中大部分表都是通过这三个字段串联的,用于数据的关联查询,识别患者身份的字段

  • subject_id:
    • 患者身份的唯一标识,即一个subject_id只对应一名患者,一名患者也只有一个subject_id;
    • 一个病人不管住多少次医院都是一个固定的subject_id
  • hadm_id:
    • 是患者每次住院的身份识别号
    • 一个病人在治疗过程中有多次的入住记录,所以有多个hadm_id
    • 一个患者可能多次住院,因此一个subjects_id会对应多个hadm_id,但一个hadm_id只能对应一个subject_id。
  • stay_id:
    • 表示患者在进入ICU的编号
    • 在住院过程中可能多次转入icu或转出icu,所以有多个stay_id
    • 因为患者一次住院可以多次进入不同的ICU,因此一个icustay_id只能对应一个hadm_id,当然也只能对应一个subject_id,但一个hadm_id可以对应多个icustay_id。

在利用 MIMIC-IV数据库进行研究时,往往需要运用sql语言对多个数据库进行连接,连接的基础一般就是这三个字段

三、HOSP

该模块包含来自医院范围的电子病历的数据。这些测量数据主要记录在住院期间,尽管一些表格也包括来自医院外的数据(例如门诊实验室实验室事件)。病人人口统计(病人) ,住院(入院)和医院内转移(转移)记录在医院模块。

值得注意的是,患者表通过anchor _ year 和anchor _ year _ group 列为每个患者提供了时间信息。anchor年是一个不确定的年份,发生在2100-2200之间的某个时间点,锚年组是一个长达三年的日期范围,在2008-2019之间。这些信息使研究人员能够推断出患者接受治疗的大约年份。例如,如果患者的锚年是2158,而他们的锚年组是2011-2013,那么在2158年发生的患者住院实际上发生在2011-2013年的某个时候。最后,anchor年龄提供给定锚年中的患者年龄。如果患者在锚年超过89岁,则该锚年龄已被设置为91岁(即所有89岁以上的患者已被分组为一个值为91的单一组,而不管他们的实际年龄是什么)。

死亡日期可以在病人表的 dod 列中找到。死亡日期来源于医院记录和州记录。如果两者都存在,医院记录优先。使用基于姓名、出生日期和社保号的自定义规则链接算法对州记录进行匹配。死亡日期的国家和医院记录是在 MIMIC-IV 最后一个病人出院两年后收集的,这应该会限制延迟报告死亡日期的影响。

出院后一年以上的死亡日期作为身份识别过程的一部分被审查。因此,每个病人最长的随访时间正好是他们最后一次出院后的一年。例如,如果一个病人最后一次出院发生在2150-01-01,那么该病人最后一次可能的死亡日期是2151-01-01。如果死者死于2151-01-01或之前,并且被记录在州或医院的死亡记录中,那么dod列中将包含不明死亡日期。如果个人在最后一次出院后存活至少一年,那么国防部的列将为 NULL 值。

Hosp 模块中的其他信息包括实验室测量(Labevents,d _ labitem) ,微生物培养(microbiologyevents,d _ micro) ,提供者订单(poe,poe _ Details) ,药物管理(emar,emar _ Details) ,药物处方(prescriptionspharmacy) ,医院账单信息(diagnoses_icdd_icd_diagnosesprocedures_icdd_icd_procedureshcpcseventsd_hcpcs,drgcodes) ,在线医疗记录数据(omr)和服务相关信息(服务)。

Provider information在提供程序表中可用。Provider _ id 列是一个去身份化的字符串,它唯一地表示一个护理提供者。由于 Provider _ id 在整个模块的不同上下文中使用,前缀通常出现在数据表中,用于上下文化护理提供者与事件的关系(比如是负责抽血,还是监护等等不同的,相当于关联到了不同的护士)。例如,接纳病人到医院的提供者在接纳表中记录为 access _ Provider _ id。所有后缀为 Provider _ id 的列都可以链接到 Provider table。

  • admissions.csv:患者入院记录数据,包含有关患者入院的信息,如入院时间、出院时间、诊断等。
    • subject_id:患者的唯一标识符。
    • hadm_id:每次住院的唯一标识符。
    • admittime:入院时间,表示患者被接收为住院患者的日期和时间。
    • dischtime:出院时间,表示患者从医院出院的日期和时间。
    • deathtime:死亡时间,如果患者在医院内死亡,则记录死亡日期和时间。
    • admission_type:入院类型,示患者被接收到医院的方式,如急诊、计划手术等。
    • admit_provider_id:接收患者的医生或提供护理的医疗专业人员的唯一标识符。
    • admission_location:入院地点,表示患者被接收到医院的具体位置,如急诊室。
    • discharge_location:出院地点,表示患者离开医院后的具体位置,如家庭、养老院等。
    • insurance:患者的医疗保险类型,如医保、商业保险等。
    • language:患者的语言。
    • marital_status:患者的婚姻状况。
    • race:患者的种族或民族。
    • edregtime:急诊室接收时间,表示患者进入急诊室的日期和时间。
    • edouttime:急诊室出院时间,表示患者离开急诊室的日期和时间。
    • hospital_expire_flag:住院期间是否死亡的标志,1表示患者在住院期间死亡,0表示未死亡。

  • drgcodes.csv:诊断相关组(Diagnosis Related Group)代码数据,用于医疗费用计算和统计分析。
    • subject_id:患者的唯一标识符。
    • hadm_id:每次住院的唯一标识符。
    • drg_type:诊断相关组(Diagnosis Related Group,简称DRG)的类型。DRG是根据患者入院诊断、手术情况、年龄、性别等因素进行分类的一种方法,用于决定医院住院费用的支付。
    • drg_code:诊断相关组代码,用于标识具体的DRG类别。
    • description:诊断相关组的描述,提供对DRG类别的文字说明。
    • drg_severity:诊断相关组的严重程度。通常使用数字表示,较高的数字表示更严重的疾病或手术。
    • drg_mortality:诊断相关组的死亡率指数。通常使用数字表示,较高的数字表示更高的死亡风险。


  • emar_detail.csv:电子药物管理记录详细数据,包含关于患者药物治疗的详细信息。
    • subject_id:患者的唯一标识符。
    • emar_id:电子药物管理记录的唯一标识符。
    • emar_seq:电子药物管理记录的顺序号。
    • parent_field_ordinal:父字段顺序号,用于标识具有父-子关系的字段之间的层次结构。
    • administration_type:给药类型,指示药物给予的方式,如口服、静脉注射等。
    • pharmacy_id:药房的唯一标识符。
    • barcode_type:条形码类型,用于扫描和识别药物。
    • reason_for_no_barcode:未使用条形码的原因。
    • complete_dose_not_given:完整剂量是否已给予的标志。
    • dose_due:应给剂量的数量。
    • dose_due_unit:应给剂量的单位。
    • dose_given:实际给予剂量的数量。
    • dose_given_unit:实际给予剂量的单位。
    • will_remainder_of_dose_be_given:剩余剂量是否会继续给予的标志。
    • product_amount_given:实际给予的产品(药物)数量。
    • product_unit:产品(药物)数量的单位。
    • product_code:产品(药物)的代码。
    • product_description:产品(药物)的描述。
    • product_description_other:产品(药物)的其他描述。
    • prior_infusion_rate:之前的输液速率。
    • infusion_rate:当前的输液速率。
    • infusion_rate_adjustment:输液速率调整方式。
    • infusion_rate_adjustment_amount:输液速率调整量。
    • infusion_rate_unit:输液速率的单位。
    • route:给药途径/路径。
    • infusion_complete:输液是否完成的标志。
    • completion_interval:完成间隔时间。
    • new_iv_bag_hung:是否换了新的输液袋。
    • continued_infusion_in_other_location:输液是否在其他位置继续进行的标志。
    • restart_interval:重新开始输液的间隔时间。
    • side:给药侧面。
    • site:给药部位。
    • non_formulary_visual_verification:非法定目视核对的标志。

  • microbiologyevents.csv:微生物学检测事件数据,记
    • microevent_id:微生物学事件的唯一标识符。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • micro_specimen_id:微生物标本的唯一标识符。
    • order_provider_id:开单医生的唯一标识符。
    • chartdate:记录日期。
    • charttime:记录时间。
    • spec_itemid:标本项目的唯一标识符。
    • spec_type_desc:标本类型的描述。
    • test_seq:测试顺序号。
    • storedate:存储日期,指标本的收集或储存日期。
    • storetime:存储时间,指标本的收集或储存时间。
    • test_itemid:测试项目的唯一标识符。
    • test_name:测试项目的名称。
    • org_itemid:微生物组织的唯一标识符。
    • org_name:微生物组织的名称。
    • isolate_num:分离编号,指不同微生物分离的编号。
    • quantity:数量,表示微生物的数量。
    • ab_itemid:抗生素项目的唯一标识符。
    • ab_name:抗生素的名称。
    • dilution_text:稀释文本,用于描述抗生素的稀释程度。
    • dilution_comparison:稀释比较,用于比较抗生素的稀释程度。
    • dilution_value:稀释值,表示抗生素的稀释倍数。
    • interpretation:解释,表示对测试结果的解释或诊断。
    • comments:备注,用于记录其他相关信息。

  • poe.csv:医嘱输入数据,记录了医生对患者的医嘱,如药物、检查等。
    • poe_seq: 医嘱序列号,指医嘱在医嘱组中的序列号。
    • poe_id: 医嘱唯一标识符,表示医嘱的唯一ID。
    • subject_id: 患者的唯一标识符。
    • hadm_id: 入院号,表示患者的住院标识符。
    • ordertime: 医嘱时间,指医嘱被下达的时间。
    • order_type: 医嘱类型,表示医嘱的类型。
    • order_subtype: 医嘱子类型,表示医嘱的子类型。
    • transaction_type: 交易类型,指与医嘱相关的交易类型。
    • discontinue_of_poe_id: 终止医嘱的医嘱ID,表示终止医嘱所属的原始医嘱ID。
    • discontinued_by_poe_id: 终止医嘱的医嘱ID,表示执行终止操作的医嘱ID。
    • order_provider_id: 医嘱提供者标识符,表示下达医嘱的提供者。
    • order_status: 医嘱状态,表示医嘱的当前状态。

  • prescriptions.csv:处方数据,记录了对患者开具的处方药物信息。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • pharmacy_id:药房的唯一标识符。
    • poe_id:医嘱输入/录入(Prescription Order Entry)的唯一标识符。
    • poe_seq:医嘱输入/录入的顺序号。
    • order_provider_id:开单医生的唯一标识符。
    • starttime:药物使用的开始时间。
    • stoptime:药物使用的停止时间。
    • drug_type:药物类型,如处方药、非处方药等。
    • drug:药物的名称。
    • formulary_drug_cd:药物在药物目录中的代码。
    • gsn:全球服务网络码(Global Service Network Code),用于标识药物。
    • ndc:国家药物编码(National Drug Code),用于唯一标识药物。
    • prod_strength:药物的剂量强度。
    • form_rx:处方剂型,表示药物的制剂形式。
    • dose_val_rx:处方剂量的数值。
    • dose_unit_rx:处方剂量的单位。
    • form_val_disp:实际发放的剂量的数值。
    • form_unit_disp:实际发放的剂量的单位。
    • doses_per_24_hrs:每24小时给药的次数。
    • route:给药途径/路径。

  • services.csv:医疗服务数据,记录了患者接受的医疗服务,如手术、检查等。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • transfertime:转诊时间,指患者从一个服务部门转到另一个服务部门的时间。
    • prev_service:之前的服务部门,指患者转诊前所在的服务部门。
    • curr_service:当前的服务部门,指患者转诊后所在的服务部门。

  • diagnoses_icd.csv:ICD诊断码数据,记录了与患者诊断相关的国际疾病分类(ICD)编码和描述。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • seq_num:诊断顺序号,表示该诊断在所有诊断中的顺序。
    • icd_code:诊断编码,指诊断的疾病或症状在国际疾病分类(ICD)中的编码。
    • icd_version:ICD版本,指使用的ICD编码标准版本号。

  • emar.csv:电子药物管理记录数据,与emar_detail.csv相似,可能包含更高层次的概要信息。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • emar_id:电子药物管理记录的唯一标识符。
    • emar_seq:电子药物管理记录的顺序号。
    • poe_id:医嘱输入/录入(Prescription Order Entry)的唯一标识符。
    • pharmacy_id:药房的唯一标识符。
    • enter_provider_id:录入提供者的唯一标识符。
    • charttime:记录时间,指药物管理记录的时间。
    • medication:药物名称。
    • event_txt:事件描述,指药物管理的具体情况。
    • scheduletime:计划时间,指计划给药的时间。
    • storetime:存储时间,指药物管理记录被存储的时间。

  • labevents.csv:实验室检测事件数据,记录了与患者实验室检测结果相关的信息,如检测时间、检验指标、结果值等。
    • labevent_id:实验室检查记录的唯一标识符。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • specimen_id:样本的唯一标识符。
    • itemid:检查项目的唯一标识符。
    • order_provider_id:检查申请提供者的唯一标识符。
    • charttime:记录时间,指实验室检查记录的时间。
    • storetime:存储时间,指实验室检查记录被存储的时间。
    • value:检查结果值。
    • valuenum:检查结果数值。
    • valueuom:检查结果单位。
    • ref_range_lower:参考范围下限。
    • ref_range_upper:参考范围上限。
    • flag:检查结果标记,指示该结果是否异常。
    • priority:检查优先级。
    • comments:注释,包含有关实验室检查结果的其他信息

  • pharmacy.csv:药房数据,可能包含有关药品配送、管理和库存方面的信息。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • pharmacy_id:药房的唯一标识符。
    • poe_id:医嘱输入/录入(Prescription Order Entry)的唯一标识符。
    • starttime:开药时间,指医生开始发药的时间。
    • stoptime:停药时间,指医生停止发药的时间。
    • medication:药物名称。
    • proc_type:处理类型,指医生的处理方式。
    • status:状态,指药物发放/管理员授权的状态。
    • entertime:进入时间,指药物进入药房的时间。
    • verifiedtime:验证时间,指验证药物信息的时间。
    • route:给药途径,指药物的给药方式。
    • frequency:给药频率,指药物的给药频率。
    • disp_sched:分配计划,指药物的分配计划。
    • infusion_type:静脉注射类型,指静脉注射药物的类型。
    • sliding_scale:滑动比例,指血糖和胰岛素之间的滑动比例。
    • lockout_interval:锁定间隔,指注射药物的锁定时间间隔。
    • basal_rate:基础速率,指注射药物的基础速率。
    • one_hr_max:一小时最大值,指药物的一小时最大剂量。
    • doses_per_24_hrs:每24小时次数,指药物的每24小时的使用次数。
    • duration:持续时间,指药物的持续使用时间。
    • duration_interval:持续时间间隔,指药物的持续使用时间间隔。
    • expiration_value:过期时间值,指药物过期时间的值。
    • expiration_unit:过期时间单位,指药物过期时间的单位。
    • expirationdate:过期日期,指药物的过期日期。
    • dispensation:配药,指药房完成配药的记录。
    • fill_quantity:填充数量,指药房填充药物的数量。

  • poe_detail.csv:医嘱输入详细数据,可能包含更详细的医嘱信息,如剂量、频率等:其中包含字段
    • poe_id:医嘱事件的唯一标识符。
    • poe_seq:医嘱事件在患者住院期间的顺序号,按时间排序。
    • subject_id:患者的唯一标识符。
    • field_name:医嘱属性的名称,如药品名称、剂量、给药路径等。
    • field_value:医嘱属性的值,如药品的具体名称、剂量数值、给药路径描述等。

  • procedures_icd.csv:ICD手术/过程码数据,记录了与患者手术或医疗过程相关的ICD编码和描述。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • seq_num:诊断序号,指该诊断在该患者所有诊断中的序号。
    • chartdate:记录时间,指诊断记录的时间。
    • icd_code:ICD编码,指诊断类别编码。
    • icd_version:ICD版本,指使用的ICD版本。

  • transfers.csv:患者转院记录数据,包含有关患者转院的信息,如转出科室、转入科室等。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,指患者的住院标识符。
    • transfer_id:转归ID,指该转归记录在该患者所有转归中的序号。
    • eventtype:事件类型,指该转归是入住、转科、出院还是其他事件。
    • careunit:病房名称,指患者所在病房的名称。
    • intime:入住时间,指患者入住病房的时间。
    • outtime:出院时间,指患者出院的时间。

四、ICU

ICU 模块包含来自 BIDMC 临床信息系统的数据: MetaVision (iMDSoft)。MetaVision 表被反规范化,以创建一个星型模式,其中 icustays 和 d _ item 表链接到一组数据表,所有表的后缀都是“ events”。ICU 模块中记录的数据包括静脉和液体输入(输入事件) ,上述输入的成分(成分事件) ,患者输出(输出事件) ,程序(程序事件) ,记录为日期或时间的信息(日期时间事件)和其他图表信息(图表事件)。所有事件表都包含 stay _ id 列,允许标识 ICUU 中的相关患者,以及一个 itemid 列,允许标识 d _ item 中记录的概念。此外,护理人员表包含 caregiver _ id,这是一个未标识的整数,表示将数据记录到系统中的护理提供者。所有事件表(chartevents、 (chartevents, datetimeevents, ingredientevents, inputevents,outputevents, procedureevents都有一个 caregiver _ id 列,该列链接到 caregiver 表。

  • datetimeevents.csv:该文件记录了与日期和时间相关的事件,例如护理措施、检查和药物管理等。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,表示患者的住院标识符。
    • stay_id:留观号,指患者在医院中的留观期间的唯一标识符。
    • caregiver_id:护理人员标识符,表示执行该记录的护理人员。
    • charttime:记录时间,指事件发生的时间。
    • storetime:存储时间,表示记录被存储的时间。
    • itemid:项目ID,指记录的特定项目或测量。
    • value:数值,表示与该项目相关的测量值。
    • valueuom:数值单位,表示测量值的单位。
    • warning:警告标志,表示是否存在与该记录相关的警告。

  • icustays.csv:该文件记录了患者在重症监护室(ICU)的留观信息。
    • subject_id:患者的唯一标识符。
    • hadm_id:入院号,表示患者的住院标识符。
    • stay_id:留观号,指患者在医院中的留观期间的唯一标识符。
    • first_careunit:首次护理单元,表示患者在住院期间所在的第一个护理单元。
    • last_careunit:最后护理单元,表示患者在住院期间所在的最后一个护理单元。
    • intime:入院时间,指患者入院的时间。
    • outtime:出院时间,表示患者出院的时间。
    • los:住院天数,表示患者在医院中的住院天数。

  • ingredientevents.csv:包含有关药物成分的数据,可能包括使用的药物成分、剂量、途径和给药时间等相关信息。
    • subject_id: 患者的唯一标识符。
    • hadm_id: 入院号,表示患者的住院标识符。
    • stay_id: 留观号,指患者在医院中的留观期间的唯一标识符。
    • caregiver_id: 护理人员标识符,表示执行该记录的护理人员。
    • starttime: 开始时间,指记录事件或处理开始的时间。
    • endtime: 结束时间,表示记录事件或处理结束的时间。
    • storetime: 存储时间,表示记录被存储的时间。
    • itemid: 项目ID,指记录的特定项目或测量。
    • amount: 数量,表示与该项目相关的数值量。
    • amountuom: 数量单位,表示数值的单位。
    • rate: 速率,指与该项目相关的速率值。
    • rateuom: 速率单位,表示速率的单位。
    • orderid: 医嘱ID,表示与记录相关联的医嘱标识符。
    • linkorderid: 链接医嘱ID,指连接到当前记录的其他医嘱的标识符。
    • statusdescription: 状态描述,表示记录的状态描述。
    • originalamount: 原始数量,表示原始数值量。
    • originalrate: 原始速率,指原始速率值。

  • inputevents.csv:包含有关液体或药物输入的数据,如给药途径、剂量、速率、开始时间和结束时间等相关信息。
    • subject_id: 患者的唯一标识符。
    • hadm_id: 入院号,表示患者的住院标识符。
    • stay_id: 留观号,指患者在医院中的留观期间的唯一标识符。
    • caregiver_id: 护理人员标识符,表示执行该记录的护理人员。
    • starttime: 开始时间,指记录事件或处理开始的时间。
    • endtime: 结束时间,表示记录事件或处理结束的时间。
    • storetime: 存储时间,表示记录被存储的时间。
    • itemid: 项目ID,指记录的特定项目或测量。
    • amount: 数量,表示与该项目相关的数值量。
    • amountuom: 数量单位,表示数值的单位。
    • rate: 速率,指与该项目相关的速率值。
    • rateuom: 速率单位,表示速率的单位。
    • orderid: 医嘱ID,表示与记录相关联的医嘱标识符。
    • linkorderid: 链接医嘱ID,指连接到当前记录的其他医嘱的标识符。
    • ordercategoryname: 医嘱类别名称,表示医嘱的类别名称。
    • secondaryordercategoryname: 辅助医嘱类别名称,指医嘱的辅助类别名称。
    • ordercomponenttypedescription: 医嘱组件类型描述,表示医嘱组件的类型描述。
    • ordercategorydescription: 医嘱类别描述,表示医嘱的类别描述。
    • patientweight: 患者体重,表示患者的体重值。
    • totalamount: 总数量,表示与该项目相关的总数量。
    • totalamountuom: 总数量单位,表示总数量的单位。
    • isopenbag: 是否为开袋状态,指示医嘱是否处于开袋状态。
    • continueinnextdept: 是否延续至下一科室,指示医嘱是否需要延续至下一个科室。
    • statusdescription: 状态描述,表示记录的状态描述。
    • originalamount: 原始数量,表示原始数值量。
    • originalrate: 原始速率,指原始速率值。

  • outputevents.csv:包含有关液体或药物输出的数据,如排尿量、引流量等相关信息。
    • subject_id: 患者的唯一标识符。
    • hadm_id: 入院号,表示患者的住院标识符。
    • stay_id: 留观号,指患者在医院中的留观期间的唯一标识符。
    • caregiver_id: 护理人员标识符,表示执行该记录的护理人员。
    • charttime: 图表时间,指记录事件或测量的时间。
    • storetime: 存储时间,表示记录被存储的时间。
    • itemid: 项目ID,指记录的特定项目或测量。
    • value: 值,表示与该项目相关的数值。
    • valueuom: 值的单位,表示数值的单位。

  • procedureevents.csv:包含有关医疗过程或手术的数据,如手术类型、开始时间和结束时间等相关信息。
    • subject_id: 患者的唯一标识符。
    • hadm_id: 入院号,表示患者的住院标识符。
    • stay_id: 留观号,指患者在医院中的留观期间的唯一标识符。
    • caregiver_id: 护理人员标识符,表示执行该记录的护理人员。
    • starttime: 开始时间,指记录事件或处理开始的时间。
    • endtime: 结束时间,表示记录事件或处理结束的时间。
    • storetime: 存储时间,表示记录被存储的时间。
    • itemid: 项目ID,指记录的特定项目或测量。
    • value: 值,表示与该项目相关的数值。
    • valueuom: 值的单位,表示数值的单位。
    • location: 位置,指记录事件或处理发生的位置。
    • locationcategory: 位置类别,表示位置的类别。
    • orderid: 医嘱ID,表示与记录相关联的医嘱标识符。
    • linkorderid: 链接医嘱ID,指连接到当前记录的其他医嘱的标识符。
    • ordercategoryname: 医嘱类别名称,表示医嘱的类别名称。
    • ordercategorydescription: 医嘱类别描述,表示医嘱的类别描述。
    • patientweight: 患者体重,表示患者的体重值。
    • isopenbag: 是否为开袋状态,指示医嘱是否处于开袋状态。
    • continueinnextdept: 是否延续至下一科室,指示医嘱是否需要延续至下一个科室。
    • statusdescription: 状态描述,表示记录的状态描述。
    • originalamount: 原始数量,表示原始数值量。
    • originalrate: 原始速率,指原始速率值。

五、主要研究思路

我们知道上面表结构后能干什么呢?这里提供简单的研究思路

这一类研究的主要套路就是:

  1. 利用diagnoses_icd(患者在住院期间的所有诊断icd-9代码)中的诊断和顺序(seq_num)从所有重症病人中筛选出一类自己感兴趣的疾病的患者,得到患者的subject_id、hadm_id和icustay_id;
  2. 从d_labitems(实验室检查项目字典)和labevents(表示患者住院期间的所有实验室检查结果)中找到自己感兴趣的实验室标志物:采用group、row_number等语句限定患者入院(或进入ICU)的第一次检查结果或特定时间内的检查结果;
  3. 从patients中提取出患者的基本特征,包括死亡时间(dod_ssn)或是否发生院内死亡;
  4. 从icustays中找到患者的出院时间 (dischtime),结合患者的死亡时间(dod_ssn)计算出随访时间。注意:来源于carevue的病例随访时间最短为4年,来源于metavision中的数据最短随访时间为90天;
  5. 从github上找到计算各种严重程度评分的脚本,然后在本地电脑中运行得出各个患者每次住院的疾病评分(比如SOFA、SAPS II、APS III等),并将这些严重评分纳入最终的统计学分析。

这类研究整体的思路就是:

  1. 首先展示研究对象的基本特征,包括人口学特征、实验室检查结果、严重程度评分结果、院内死亡率等。
  2. 然后分析待研究的实验室指标个患者临床特征的关系(这部分研究有时也可以省略)
  3. 最后采用Kaplan-Meier曲线和Cox风险比例模型分析实验室标志物与疾病预后的关系。

下一章我们讲解生成的mimic_derived模块信息

0 人点赞