在前面的文章中曾分享过一些公开数据集,今天我将继续分享2024年度医疗公开数据集给大家。
1、BvEM2024数据集
BvEM2024是小鼠、猕猴和人类皮质上对 3D 血管实例分割。BvEM数据集来自三种猿类动物的样本:成年小鼠的视觉皮层,成年猕猴,以及成年人类。下载链接:
https://huggingface.co/datasets/pytc/BvEM/tree/main
2、JustRAIGS2024数据集
JustRAIGS2024,提供了一个独特的大型数据集,其中包含超过11万张经过仔细注释的眼底照片,这些照片收集自约 60,000 名放映者。生成了一个包含101,442 个可分级眼底图像(来自“可参考青光眼”眼睛和“无可参考青光眼”眼睛)的训练子集和一个包含 9,741 个眼底图像的测试子集。下载链接:
https://zenodo.org/uploads/10035093
3、FairSeg10k2024数据集
FairSeg10k数据集包含来自10,000名受试者的10,000个样本。将数据分为包含 8,000个样本的训练集和包含2,000个样本的测试集。该数据集的集体平均年龄为60.3 ± 16.5 岁。该数据集中包含年龄、性别、种族、民族、语言和婚姻状况等六个敏感属性,用于深入的公平学习研究。下载链接:
https://drive.google.com/drive/u/0/folders/1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ
4、DREAMING2024数据集
DREAMING 训练数据集包含100个不同的手术场景,其中包含独特的患者、周围环境以及动态移动和静态手术器械以及握住它们的手的障碍物。此外还提供了定义每个图像要修复的区域的蒙版。下载链接:
https://zenodo.org/doi/10.5281/zenodo.10471364
5、Lightmycells2024数据集
Light My Cells France-生物成像挑战赛旨在促进生物学和显微镜领域新的图像到图像“深度标签”方法的开发。此挑战的目的是产生新的开源方法,可以处理较大的采集变化:Z 轴焦点,多个通道,采集地点,输入模式(明场、相差和微分干涉差 (DIC))、仪器,放大倍率,细胞,标记。 该数据库由约 57,000 张2D 图像组成。下载链接:
https://seafile.lirmm.fr/d/123f71e12bf24db59d84/4
6、KPIs2024数据集
肾脏病理图像分割 (KPI) 挑战涵盖广泛的肾脏疾病模型,包括源自临床前啮齿动物模型的正常和多种特定 CKD 状况。该挑战从60多张高碘酸席夫 (PAS) 染色的完整幻灯片图像中广泛收集了10,000个正常和患病肾小球。每幅图像都包含肾单位,每个肾单位包含一个肾小球和一小簇血管。下载链接:
https://sites.google.com/view/kpis2024
https://www.synapse.org/#!Synapse:syn54077668/wiki/626475
7、ACOUSLIC-AI2024数据集
ACOUSLIC-AI(与操作员无关的腹围超声测量)挑战赛是一项分类和分割挑战赛。这是提出使用盲扫数据进行胎儿生物测量任务的第一个挑战。目标是开发人工智能模型并对其进行基准测试,用于在这种特定数据类型上自动测量胎儿腹围,旨在扩大资源有限地区的产前护理的可及性。本次挑战赛将开发人工智能模型来估计盲扫 2D 产前腹部超声序列中的AC,这些序列是由五个非洲外围医疗机构和一家欧洲医院的新手操作员获得的。模型必须确定最佳测量框架,并在该框架内准确分割胎儿腹部。必须提供识别出的框架和相应的分割掩模,这将用于精确测量胎儿腹围。下载链接:
https://acouslic-ai.grand-challenge.org/overview-and-goals/
8、IUGC2024数据集
IUGC2024挑战赛重点关注产时超声视频,旨在开发一种自动化胎儿生物测量方法,以减少观察者内部和观察者之间的变异性并提高测量可靠性。该方法应该能够检测适合测量超声参数的标准化平面,分割胎儿头部和耻骨联合区域,并进一步计算进展角度 (AoP) 和头联合距离 (HSD)。数据由三所大学医院(暨南大学附属第一医院、南方医科大学珠江医院和中山大学附属第三医院)的超声医师、产科医生和技术人员组成的专业团队采集, 七年以上专业经验。手动分割和测量由三位具有超声成像经验的超声医师进行。在训练阶段,提供288个完全由标准平面组成的视频和168个完全由非标准平面组成的视频。其中,将有超过xx个帧包含标准平面,其中xx个帧被注释为分割。此外,还有xx个帧为非标准平面。每个训练案例都包含一个超声视频,其中包含完全标准平面或完全非标准平面。这种裁剪方法有利于标准平面分类器的训练。在所有帧都是标准平面的大多数视频中,定期提供注释,而在所有帧都是标准平面的一小部分视频中,为每个帧提供注释。因此,鼓励参与者关注帧之间的相关性,以在有限的样本下实现分割。在训练阶段,将提供288个完全由标准平面组成的视频和168个完全由非标准平面组成的视频。其中,将有 24,434 帧包含标准平面,其中 2,906 帧带有分割注释。此外,还有31,450帧非标准平面。在验证和测试阶段,将提供在单个视频中包含标准和非标准平面的真实超声视频。因此,参与者在继续分割任务之前需要对标准平面进行分类。值得注意的是,在测试阶段,提供的数据与训练和验证阶段相比将表现出很强的异质性。这将全面评估参与者方法的泛化性能并评估其临床适用性。下载链接:
https://codalab.lisn.upsaclay.fr/competitions/18413#learn_the_details
9、ToothFairyv22024数据集
锥形束计算机断层扫描 (CBCT) 的使用不仅在牙科领域,而且在整个头颈外科领域都在增加。CBCT 的主要优点与采集时间短和辐射剂量低有关,同时保持解剖结构(尤其是硬组织)的良好可视化。在这方面,在去年的挑战(ToothFairy2023)中,解决了下牙槽管(IAC)的分割问题,下牙槽管是下颌骨内的一个高贵结构,其识别和保存是许多外科手术的主要目标。SetA是与ToothFairy2023相重叠的数据一共包含417例,SetB是新的数据一共包含63例,数据格式是mha的格式,分割类别一共有48个类别。下载链接:
https://ditto.ing.unimore.it/toothfairy2/
10、LEOPARD2024数据集
LEOPARD2024挑战赛根据 H&E 染色的组织病理组织切片(即基于形态特征)预测生化复发时间。训练集包含来自 Radboudumc 的 508 个病例,每个病例对应一位独特的患者。每个病例都是一个前列腺切除术的 WSI,包含癌症,形式为锥体 TIF,这是一种多分辨率平铺格式。每个分辨率都作为 TIF 中的单独级别存储。第一级包含全分辨率图像。每个后续级别都是前一个级别的四倍下采样。除WSI外,还提供了一个triending_labels.csv文件,其中包含患者的后续信息:case_id(str) - 每个患者的唯一标识符;Event(int) - 患者是否患有生化复发(0 =否,1 =是);Follow_UP_YEARS(float) - 时间是生化复发的时间(事件= 1)或年度的最后一次随访(事件= 0)。验证集由大约150名患者组成。验证图像仅在运行时容器中可访问。测试组包括约650名患者。测试图像也只能在运行时容器中访问。这个更大的评估集将在预测未见数据的生化复发时间时对模型的性能进行全面评估。下载链接:
https://leopard.grand-challenge.org/data-download/