什么是对数据的表征学习

2023-02-20 14:28:05 浏览数 (1)

对一个事物的认知过程,应该首先从一个清晰的概念开始,概念需要定义,定义有内涵和外延。在对一个新的概念进行定义的时候,要使用清晰、简单的词汇进行一句话概括,不要引入新的概念或新的名词,不要使用不必要的形容词,不要描述一个事物,而是对本质的表达。

表征学习就是这么一个新概念,在很多地方都是直接使用而未对其进行一个定义。在阅读了很多文档之后,本文尝试对这个概念进行定义。

表征学习,是指在人工智能领域,当进行机器学习(或深度学习)时,在数据准备阶段,对原始数据进行的处理,删繁就简,使杂乱无章、纷繁复杂的原始数据更容易被后续使用。具体进行了哪些处理呢,有哪些操作呢?主要是通过“学习”或“选择”得到新的数据。

表征学习也是其他现代科学或工程技术领域的名词一样,是一个从西方词语生硬翻译过来的词汇。英语应该是 representation learning, 此处的意思是应该是表达或表示,对数据进行处理之后使其以一种人类和机器学习更容易理解的形式表达或表示出来。而在后续的使用中,常使用表征学习这个词汇,更增加了理解上的难度。

感觉还欠缺知识点对这个问题更详尽地阐述,挖个坑,以后会回来更新的。

2023年2月20日更新:

表征学习指的就是,在机器学习领域整个模型训练的过程其实都是在学习如何对数据进行更好地表征,此处的表征更通俗地表达应该是“表达”、“表示”、“展示”,而对数据进行更好地表征,就是对数据的特征Feature进行更好的表达。表征学习,就是学习更好地表达数据的特征,就是对数据的特征信息进行更好地提取、处理和表达,以便对未来数据进行预测。

在2013年第一届 ICLR 会议上,Yoshua Bengio 与 Yann Lecun 介绍了创办该会议的初衷:机器学习方法的效果非常依赖于数据的表示(或称为特征)的选择。表征学习领域一直关注如何更好地学习到有意义的、优越的数据表示方法。也正是在2013年,Bengio 发表了关于表征学习的综述“Representation learning: A review and new perspectives”[2]。

The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.

参考文章:什么是Representation Learning? - 知乎 (zhihu.com)

0 人点赞