KAN 架构浅析_ 字节宝

KAN 架构浅析

2024-05-06 19:49:06 浏览数 (1)

目前全新的神经网络价格 KAN 一发布就引起了广泛的关注，其灵感源自Kolmogorov-Arnold 表示定理，跟MLP的一个主要的不同是MLP激活函数是在神经元上，而KAN把可学习的激活函数放在权重上。

而 MLP 之所以经久不衰，就是因为他简单，快速，能scale-up。KAN让人想起来之前的Neural ODE，催生出来比如LTC（liquid time constant）网络这种宣称19个神经元做自动驾驶。（当然只是名字噱头，其实只是自动驾驶最简单的车道保持任务）。KAN 从本质上讲就是向量激活函数，把 1 个实数映射成 1 N 个实数，m是 B-spline 基函数的个数，从理论上来讲 KAN 就是把权重参数忠的元素从实数推广到为实数到实数的映射。

KAN 的优点很明显，就是精度要比传统的 MLP 要求更高，这也意味着要求更高的算力和训练难度会更高，然而目前的 AI 芯片和算力的挑战是巨大的，对于这类模型支持普遍不好。从结果来看KAN现阶段就是不如MLP合适。KAN更适合高精度和可解释的计算和科学发现。如下图所示，这是目前的 KAN 架构，从原理图来看本身就复杂于 MLP，这也是对于其精度更高的原因所在。

但是现在是大模型时代，KAN 模型的发展可能也依赖于算力和后续该模型结构的优化与发展，我们依然需要看后续 KAN 是否能够适配于 transformer。

我正在参与2024腾讯技术创作特训营最新征文，快来和我瓜分大奖！

腾讯技术创作特训营S6

0 人点赞