海量训练数据是现代机器学习算法、人工智能技术在各个领域中应用获得成功的重要条件。例如,计算机视觉和电子商务推荐系统中的 AI 算法都依赖于大规模的标记良好的数据集才能获得较好的处理效果,如 ImageNet 等。然而在...
当前深度学习技术主要是data driven的,即对一个特定任务来说,只要增加训练数据的规模,深度学习模型的表现就可以得到提高。但是发展到今天,这种思路面临很多挑战。主要面临下面几个问题:...
近年来,深度学习方法在特征抽取深度和模型精度上表现优异,已经超过了传统方法,但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型,而现有的研究对少量标注数据学习问题探讨较少。本文将整理介绍四种利用...
最近一年,AI领域出现了很多迁移学习(transfer learning)和自学习(self-learning)方面的文章,比较有名的有MoCo,MoCo v2,SimCLR等。这些文章一出现,就受到了很多研究人员的追捧,因为在现实任务上,标签数据是非常宝贵的资源,受...
迁移移学习(TL)试图利用来自一个或多个源域的数据或知识来促进目标域的学习。由于标记成本、隐私问题等原因,当目标域只有很少或没有标记数据时,它特别有用。...
如果说自然语言处理可被誉为“人工智能皇冠上的明珠”,那么对话系统就是“自然语言处理皇冠上的明珠”。其中以苹果SIRI、Google Assistant为代表的任务型对话系统尤为学术界和产业界所关注。然而,构建一个任务型对话系...
这篇文章可以看作是对其他文章的概述和理解,以便在更高的层次上理解这个概念。我的意图是去掉一些实现细节,使其足够高,足以满足初学者的需要,并激发他们阅读原始研究论文和后续实现的好奇心。...
写这篇文章的原因是迁移学习(Transfer Learning)现在的流行,并且向多个方向发展。它有各种性质和特点,但方法论缺乏更高层次的框架。让我们详细说明一下。...
序言部分讲到在人工智能界一直有一个说法,认为机器学习是人工智能领域最能够体现智能的一个分支。
在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优...