KAN 架构浅析

2024-05-06 19:49:06 浏览数 (1)

目前全新的神经网络价格 KAN 一发布就引起了广泛的关注,其灵感源自Kolmogorov-Arnold 表示定理,跟MLP的一个主要的不同是MLP激活函数是在神经元上,而KAN把可学习的激活函数放在权重上。

而 MLP 之所以经久不衰,就是因为他简单,快速,能scale-up。KAN让人想起来之前的Neural ODE,催生出来比如LTC(liquid time constant)网络这种宣称19个神经元做自动驾驶。(当然只是名字噱头,其实只是自动驾驶最简单的车道保持任务)。KAN 从本质上讲就是向量激活函数,把 1 个实数映射成 1 N 个实数,m是 B-spline 基函数的个数,从理论上来讲 KAN 就是把权重参数忠的元素从实数推广到为实数到实数的映射。

KAN 的优点很明显,就是精度要比传统的 MLP 要求更高,这也意味着要求更高的算力和训练难度会更高,然而目前的 AI 芯片和算力的挑战是巨大的,对于这类模型支持普遍不好。从结果来看KAN现阶段就是不如MLP合适。KAN更适合高精度和可解释的计算和科学发现。如下图所示,这是目前的 KAN 架构,从原理图来看本身就复杂于 MLP,这也是对于其精度更高的原因所在。

但是现在是大模型时代,KAN 模型的发展可能也依赖于算力和后续该模型结构的优化与发展,我们依然需要看后续 KAN 是否能够适配于 transformer。

我正在参与2024腾讯技术创作特训营最新征文,快来和我瓜分大奖!

0 人点赞