编译 | yining
发布 | ATYUN订阅号
2017年,AI领域最重要的理论家、图灵奖最新获得者杰弗里·辛顿(geoffrey hinton)与学生萨拉·萨布尔(sara sabour)和尼古拉斯·弗罗斯特(Nicholas frost)一起提出了一种称为capsnet的机器学习架构,这是一种经过培训的多层方法,在目前流行的基准上实现了最先进的图像分类性能。在他们工作的后续行动中,辛顿、萨博和牛津机器人研究所的研究人员详细介绍了胶囊网络的一个版本,该版本在无人监督的分类任务中优于当前领先的算法。
他们的工作内容在arxiv.org上发表的一篇论文(“堆叠胶囊自动编码器”)中进行了描述。
胶囊系统通过几何地解释其相互关联部分的有组织的集合来理解对象。针对各种对象属性(如位置,大小和色调)单独激活的数学函数(胶囊)的集合被添加到卷积神经网络上,并且它们的几个输出内容化被重复使用以形成更高阶胶囊的“稳定”表示
由于这些内容在整个过程中保持不变,所以胶囊系统可以利用它们来识别对象,即使在视点发生变化时,例如在交换或转换零件位置。
关于胶囊系统的另一个独特之处:它们注意过程。与所有深度神经网络一样,胶囊函数被安排在互连层中,从输入数据传输“信号”并缓慢调整每个连接的突触强度权重。但是在涉及胶囊的情况下,权重是根据前一层函数预测下一层输出的能力动态计算的。
Hinton及其同事最近的研究工作是研究一种神经编码器,它可以观察图像样本,并试图推断出物体的存在和姿态。
它由一个解码器训练,该解码器使用混合的姿态预测来预测已经发现的图像部分(由自动编码器分割)的姿态,并将每个图像像素建模为转换后的部分。然后在未标记的数据上学习胶囊系统,并将存在的向量(数学表示)聚在一起,以捕获整个对象和部件之间的空间关系。
合著者注意到,物体胶囊的存在概率向量更有可能形成紧密的集群,并且为每个紧密的集群分配一个类会产生最先进的结果,在街景房号数据集(一个由60万张真实世界图像构成的数据集,来自G.Oogle街景图片)。此外,这种实现导致了mnist(手写数字的语料库)的接近最先进的结果,并进一步提高了性能,参数小于300。
End