一款好用的数据标注工具对于创建高质量的AI训练数据集至关重要,您可以通过高效的标注工具提高数据标注速度,让工作流变得更为有序。随着计算机视觉技术的发展,我们可以在开源社区看到越来越多的图像标注工具,任何人都可以免费使用并从强大的功能中获益,我们在下文中列举了10款我们认为优秀的开源标注工具!
1. LABEL STUDIO
我们最为推荐的开源标注工具是Heartex开发的 Label Studio,该工具分为付费和开源版本,即便是免费的开源版本,也足以支持广泛的标注类型,包括图像分类、目标检测、语义分割等,除了图像外,也可以用在音频、文本和 HTML场景的标注,并具有名为 Labeling Config 的独特配置,您可以在其中根据所需定制UI,Label Studio整合了多种算法辅助的自动化功能,包括可以基于现有AI模型对数据进行预标注。最后,我们推荐的另外一个重要的因素在于它拥有一个活跃的用户社区,您可以在其中分享使用技巧或提出问题。
2. DIFFGRAM
我们推荐的第二款是Diffgram,此前它还是一个付费的工具,但是从 2021 年Q1之后,Diffgram 已转为完全开源的工具,提供可选的付费托管服务和企业支持。
它的突出之处在于除了作为数据标注工具外,还具有各种数据集和工作流管理功能。
它支持图像和视频相关的大多数数据标注场景,例如2D包围框、多边形、语义分割、立方体和关键点等。
它的语义分割功能还提供了各种辅助功能,例如自动贴合、组合形状、点到全多边形等等!
此外,它的视频标注支持关键帧和序列标注,例如事件跟踪和目标跟踪。
3. LABELIMG
LabelIMG是一款非常流行的开源图像标注工具。大多数接触数据标注工作的人使用过的第一款标注工具就是它,由于其简单直观的UI以及它可以离线使用以提供最大的数据安全性,而受到诸多算法工程师的青睐。
它可以在几乎所有环境中使用,例如 Windows、Linux、Ubuntu 和 Mac OS,它的 Python 库也可以在 Anaconda 或 Docker 中使用。然而,虽然LabelIMG非常易于上手,但由于它没有任何协同标注功能,而且仅支持包围框标注,所以不适合用于多人协同标注,也不适合任何其他标注类型。
它可以将标注结果保存为 PASCAL VOC 格式以及 YOLO 和 CreateML 格式的 XML 文件。
4. CVAT
CVAT 是英特尔开发的开源软件,虽然入门难度相对较高,但它具有非常丰富的标注工具和各种自动化功能,基于 Chrome 运行,支持包围框、多边形、线和关键点的标注,同时CVAT 支持复制粘贴标注对象、目标自动跟踪和关键帧标注,由 TensorFlow OD API 提供支持。在CVAT 中的多人协作很容易,可以拆分和委派工作。
CVAT非常受到国内外知名的数据标注公司青睐,同时它也是我们主要使用的平台,基于CVAT的强大功能,我们开发了冰山标注平台,整合语音、文本标注工具和录音工具,并且在CVAT提供的工作流基础之上进行了改进,更加灵活地管理多个数据标注团队和众包团队,您可以联系我们以申请试用冰山标注平台。
5. IMAGETAGGER
ImageTagger是一个用于协作的图像标注的开源在线平台。该平台由汉堡大学信息学系的 Niklas Fiedler 专门针对机器人世界杯的需求而开发,旨在使标注数据的过程尽可能直观和快速。
它支持使用包围框、多边形、线和关键点来标注图像集。它的一些功能对于数据标注项目管理十分有效,比如一些有助于管控质量的选项和功能,例如图像预加载、上传现有标注信息和标注验证。此外,由于它专注于多人协作标注,允许通过将标注员分成多个团队来对数据集进行大规模标注。
6. LABELME
LabelMe 被认为是最著名的数据标注工具之一。由麻省理工学院于2008 年发布,用以构建规范的 LabelMe 数据集,LabelMe 可以在线或离线使用。它可以在 Windows、Ubuntu 和 Mac 等环境中运行。LabelMe 可标注包围框、多边形、关键点、折线以及图像分割,支持图像和视频标注,它可以导出 VOC 和 COCO 格式的语义和实例分割结果。但是缺点和LabelIMG一样不支持多人协同,所以不适用于大规模的标注项目。
7. VIA
VGG 图像标注工具也叫 VIA,由牛津大学的视觉几何小组开发。这是一个相当简单的标注工具,可以手动标注图像、音频和视频,非常易于使用和安装,它可以基于几乎任何web浏览器运行。
VIA 可以用来标注包围框、圆形、椭圆、多边形、关键点和线。VIA支持导出CSV和JSON,以及提供少量的项目管理功能,比如允许为标注员设置多个任务,并通过UI直观地监控项目进度。
8. MAKE SENSE
Make Sense 是一个相对年轻的开源数据标注平台。由 Piotr Skalski于 2019 年发布的
Make-sense 具有非常漂亮的 UI,并且在标注方面没有多余的装饰,并具有额外的目标检测和图像识别功能。如需试用请直接访问他们的网站,将您的原始图片拖拽进去就可以立即开始标注了,他们不存储任何用户数据,所以不会存在隐私隐患。
Make Sense 支持包围框、关键点、线和多边形标注,也支持使用 AI 模型进行预识别标注,例如在 COCO 数据集上预训练的 SSD 模型和 PoseNet 模型,可用于预测人的姿态和图像或视频中的关键主体。
比较遗憾的是,Make Sense 没有任何项目管理功能或 API。
9. COCO ANNOTATOR
COCO Annotator由 Justin Brooks 使用Vue.js开发,它是一个基于 Web 的图像分割工具,旨在帮助开发和训练目标检测、定位和关键点检测模型。
标注数据集可以使用自由曲线、多边形和关键点以及其他特征来标注图像片段、追踪对象实例,甚至允许在单个实例中标注多个断开的可见部分,可存储为COCO数据集格式,因此得名COCO Annotator。
COCO Annotator还支持用半训练模型预标注图像,并拥有 DEXTR、MaskRCNN 和 Magic Wand 等高级选项。
最后,它还提供了一个用户身份验证系统来保证安全性。
10. DATATURKS
最后向您推荐的是一个已经停更的开源平台。Dataturks 曾经是一项付费服务,2018 年被沃尔玛收购,此后开发便停止了,现在可以在 GitHub 上免费使用。尽管在使用该软件时会多次提示用户可以为进阶功能付费,但实际上它可以完全免费使用。虽然已经有一段时间没有更新版本了,但仍然是一个可靠的开源数据标注工具。它允许团队协同处理各种数据标注类型,包括图像、视频、文本和 NER。
它允许标注多边形和图像分割mask,也可以通过在标注元素添加子标签进行图像分类。它也支持目标追踪标注,可以在视频中的关键帧标注包围框,并且该工具将自动在这些关键帧之间进行补间。Dataturks 可以以 VOC、Tensorflow 和 Keras 格式导出标注结果。