KAN的优势声称是能以更少的参数量实现更高的精度。KANs在数学上是可靠的、准确的和可解释的。
一 KAN
论文题目:KAN: Kolmogorov–Arnold Networks
论文地址:https://arxiv.org/pdf/2404.19756
代码地址:https://github.com/KindXiaoming/pykan
文档地址:Hello, KAN! — Kolmogorov Arnold Network documentation
【摘要】受科尔莫戈洛夫-阿诺德表示定理的启发,我们提出了Kolmogorov-Arnold Networks (KANs),作为多层感知机( MLPs )的有前途的替代品。而MLPs在节点( "神经元")上具有固定的激活函数,KANs在边( "权重")上具有可学习的激活函数。KANs完全没有线性权重-每个权重参数都用一个参数化为样条的一元函数代替。我们证明,在小规模AI + Science任务上,这种看似简单的变化使得KANs在准确性和可解释性方面优于MLPs。在精度方面,在函数拟合任务中,较小的KANs可以达到与较大的MLPs相当或更好的精度。理论和实证上,KANs比MLPs具有更快的神经缩放规律。对于可解释性,KANs可以直观地可视化,并且可以方便地与人类用户进行交互。通过数学和物理学中的两个例子,KANs被证明是帮助科学家(重新)发现数学和物理规律的有用的"合作者"。总之,KANs是MLPs的有前途的替代品,为进一步改善当今严重依赖MLPs的深度学习模型提供了机会。
1 Kolmogorov-Arnold表示定理
KAN的主要理论依据是 Kolmogorov-Arnold 定理。这个定理是由苏联数学家安德烈·科尔莫戈洛夫(Andrey Kolmogorov)首先提出,并由他的学生弗拉基米尔·阿诺尔德(Vladimir Arnold)在1957年进一步发展。定理最初的动机是探讨多元函数可以如何被一组更简单的函数表示。Vladimir Arnold 和 Andrey Kolmogorov证明了,如果 f 是在有界域上的多变量连续函数,则 f 可以被写成单变量连续函数加法二元运算的有限组合。更具体地说,对于一个光滑的f:[0, 1]→R
从某种意义上说,他们证明了唯一真正的多元函数是加法,因为所有其他函数都可以用一元函数和求和来写。然而,由于其有限的表达能力,这种2层宽度(2n + 1)Kolmogorov-Arnold表示可能不是平滑的。我们通过将其推广到任意的深度和宽度来增强其表达能力。
上述原始表达式只对应了一个拥有两层非线性激活函数,并且隐藏层只有2n+1个节点的网络。
其实两层理论上可以拟合任何函数,但是激活函数有时会变得非常不光滑,非常病态,才能满足要求,所以这也是多层KAN的必要性。
2 Kolmogorov-Arnold Network (KAN)
Kolmogorov-Arnold表示可以写成矩阵形式:
在实现上,激活函数采用多个一维的B-Spline函数的结合,并利用残差激活函数。
如上图,其实就是多个basic函数的相加,C参数控制每个basic的幅值。Φ函数有粗粒度和细粒度选择,就是选多些basic函数相加就越精准,上图是展示7和12两种情况。G=5表示interval是5。
MLPs通过增加模型的宽度和深度可以提高性能,但这种方法效率低下,因为需要独立地训练不同大小的模型。KANs开始可以用较少的参数训练,然后通过简单地细化其样条网格来增加参数,无需重新训练整个模型。基本原理就是通过将样条函数(splines)旧的粗网格转换为更细的网格,并对应地调整参数,无需从头开始训练就能扩展现有的KAN模型。这种技术称为“网格扩展”。
KAN可以很容易地可视化。(1)KAN只是KAN层的堆叠。(2)每个KAN层都可以被可视化为一个完全连接的层,每个边缘上都有一个1D函数。
3 MLPs与KANs
多层感知器(MLPs)也被称为全连接前馈神经网络,是当今深度学习模型的基础构建模块。MLPs的重要性无法过分强调,因为它们是机器学习中用于逼近非线性函数的默认模型,这归功于它们由通用逼近定理保证的表达能力。然而,MLPs是我们能够构建的最佳非线性回归器吗?尽管MLPs被广泛使用,但它们存在显著缺点。
MLPs受到通用逼近定理的启发,KANs受到Kolmogorov-Arnold表示定理的启发。像MLPs一样,KANs具有全连接结构。然而,MLPs在节点("神经元")上放置固定的激活函数,而KANs在边缘("权重")上放置可学习的激活函数。KAN网络完全没有线性权重矩阵:每个权重参数都由一种可学习的一维样条函数替代。KAN网络的节点仅对输入信号进行求和,不进行任何非线性处理。
简言之,MLP:线性组合,然后非线性激活;KAN:非线性激活(每个输入),然后线性组合。
如下图:多层感知器( Mlps ) vs .科尔莫戈罗夫- Arnold网络( Kans )
KANs与MLPs之间如何做选择?
4 可解释性
下面是论文做的一些公式的拟合,解释性不错。
KAN比MLP在公式拟合方面更高效,见下图。
5 训练
KAN比较大的创新是可以在训练过程中加入人类先验的知识,更可信。比如下面这图,在较大的KAN训练完后,进行剪枝(可解释性更高),然后可以人为手动地把激活函数设置为经典的函数(正弦、平方、指数),从而得到一个可信的可解释的直观的表达结果。
通过激活函数分辨率提升,以及稀疏化、剪枝等结构自优化技巧,实现了准确性和可解释性的提升。能够在参数量大大减少的情况下实现相同甚至更有的拟合效果。
6 抗遗忘特性
KAN有比较好的抗遗忘特性!这对于大模型来说很有前景。
【总结】如作者说讲,可学的激活函数,在edge加激活函数,多层,这三个概念都有前人研究过,KAN的贡献是将它们整合在一起,实现 多层的支持edge激活函数可学的全新架构。KAN目前训练速度慢是论文中说明的也是大家直接发现的主要瓶颈。且单看一个KAN和MLP模块,KAN的参数量是要更多的,只是说在某些任务KAN可能可以更少的层实现高精度,所以在小任务上目前还是MLP更优。
KAN有以下特点:①全连接结构 ②边上的可学习激活函数 ③权重参数被替换成可学习的样条函数 ④在节点处进行简单的相加操作。
二 CKAN
论文题目:Convolutional Kolmogorov-Arnold Network (CKAN)
论文地址:https://arxiv.org/pdf/2406.13155
代码地址:https://github.com/AntonioTepsich/Convolutional-KANs
【摘要】本文介绍了卷积科尔莫戈罗夫- Arnold网络( Convolutional KANs ),这是标准卷积神经网络( Convolutional Neural Networks,CNNs )的创新替代品,它彻底改变了计算机视觉领域。我们将科尔莫戈罗夫- Arnold Networks ( KANs )中提出的非线性激活函数集成到卷积中,以构建新的层。在整篇文章中,我们在MNIST和Fashion - MNIST基准测试集上实证验证了卷积KANs相对于传统架构的性能,表明这种新方法在使用一半的参数量的情况下保持了相似的准确度。这种参数的显著减少为推进神经网络结构的优化开辟了一条新的途径。
1 KAN Convolution
KAN 卷积与卷积非常相似,但我们不是将核与图像中相应的像素之间的点积应用到每个元素上,而是将可学习的非线性激活函数应用于每个元素,然后将它们相加。KAN 卷积的核相当于一个由 4 个输入和 1 个输出神经元组成的 KAN 线性层。对于每个输入 i,我们应用一个 ϕ_i 可学习函数,该卷积步骤的结果像素是 ϕ_i(x_i) 的总和。
未完待续。。。