本文翻译自Medium上的一篇文章: The 6 most useful Machine Learning projects of the past year (2018),点击阅读原文可跳转到该文章。
对于人工智能和机器学习而言,过去的一年是非常重要的一年。许多最新的具有很大影响力的机器学习应用开发出来并得到应用,特别是在医疗保健、金融、语音识别、增强现实,以及更复杂的3D和视频等领域。
我们已经看到了更多的应用驱动型研究,而不是理论研究。虽然这可能有其缺点,但它暂时产生了一些巨大的积极影响,推动了可以迅速转化为商业和客户价值的新研发。这一趋势很大程度反映在大部分开源机器学习项目中。
让我们来看看过去一年中前6个最实用的机器学习项目。这些项目发布了代码和数据集,允许个体开发人员和小型团队学习并立即创造价值。它们可能不是理论上最具开创性的作品,但它们适用且实用。
Fast.ai
Fast.ai库使用现代最佳实践,简化了训练快速且准确的神经网络的代码编写。它抽象出了在实践中实施深度神经网络可能涉及的所有细节工作。它非常易于使用,并且按从业者的应用程序构建思维模式进行设计。最初它是为Fast.ai课程的学生而创建的,该库以简洁易懂的方式编写在易于使用的Pytorch库之上。他们的文档也是一流的。
Detectron
Detectron是Facebook AI进行物体检测和实例分割研究的研究平台,用Caffe2编写。它包含各种对象检测算法的实现,包括:
- Mask R-CNN: 使用Faster R-CNN结构的对象检测和实例分割
- RetinaNet: 基于特征金字塔的网络,采用独特的Focus Loss,可处理很复杂的场景。
- Faster R-CNN: 对象检测网络最常见的结构
所有网络都可以使用以下几种可选的分类网络之一:
- ResNeXt{50,101,152}
- ResNet{50,101,152}
- Feature Pyramid Networks (with ResNet/ResNeXt)
- VGG16
更重要的是,它们都带有COCO数据集上的预训练模型,因此您可以立即使用它们!他们已经在Detectron model zoo中使用标准评估指标进行了测试。
FastText
另一项来自Facebook的研究,fastText库专为文本表示和分类而设计。它配备了预先训练的150多种语言的单词向量模型。这些单词向量可用于许多任务,包括文本分类、摘要和翻译。
AutoKeras
Auto-Keras是一个用于自动机器学习(AutoML)的开源软件库。 它由Texas A&M大学的DATA实验室和社区贡献者开发。AutoML的最终目标是为具有有限数据科学或机器学习背景的领域专家提供易于访问的深度学习工具。Auto-Keras提供自动搜索深度学习模型的最佳架构和超参数的功能。
Dopamine
Dopamine是由Google创建的强化学习算法快速原型设计的研究框架。它旨在灵活且易于使用,实现了标准RL算法、指标和基准。
根据Dopamine的文档,他们的设计原则是:
- 易于试验:帮助新用户运行基准实验
- 灵活的开发:为新用户提供新的创新想法
- 紧凑和可靠:为一些较旧和更流行的算法提供实现
- 可重复:确保结果可重复
vid2vid
vid2vid项目是Nvidia最先进的视频到视频合成算法的公开Pytorch实现。视频到视频合成的目标是学习从输入源视频(例如,一系列语义分割掩模)到精确描绘源视频内容的拟真视频输出的映射函数。
这个库的好处在于它的可选项:它提供了几种不同的vid2vid应用程序,包括自动驾驶/城市场景、人脸和人体姿势。它还附带了丰富的指令和功能,包括数据集加载、任务评估、训练功能和多GPU!
其它值得关注的项目
- ChatterBot:用于对话引擎和创建聊天机器人的机器学习
- Kubeflow:Kubernetes的机器学习工具包
- imgaug:用于深度学习的图像增强
- imbalanced-learn:scikit下的python包专门用于修复不平衡数据集
- mlflow:用于管理ML生命周期的开源平台,包括实验,可重复性和部署。
- AirSim:基于虚幻引擎/ Unity的自动驾驶汽车模拟器,来自Microsoft AI & Research