Edifice.Feedforward.KAN (Edifice v0.2.0)

KAN: Kolmogorov-Arnold Networks with learnable activation functions.

Implements KAN from "KAN: Kolmogorov-Arnold Networks" (Liu et al., 2024). Based on the Kolmogorov-Arnold representation theorem: any multivariate continuous function can be represented as compositions of univariate functions.

Key Innovation: Learnable Edge Activations

Unlike MLPs with fixed activations on nodes, KAN has learnable activations on edges:

MLP:  y = W2 * sigma(W1 * x)           # Fixed sigma (ReLU, etc.)
KAN:  y = Sum_j Phi_j(x_j)             # Learnable Phi_j per edge

Each edge activation is parameterized as:

Phi(x) = w_base * SiLU(x) + w_spline * spline(x)

Basis Function Options

This implementation supports multiple basis functions:

Basis	Formula	Params	Speed
`:bspline` (default)	Sum c*B_k(x) (cubic B-spline)	O(oig)	Medium
`:sine`	Sum Asin(omegax + phi)	O(oig)	Fast
`:chebyshev`	Sum c*Tn(x)	O(oig)	Fast
`:fourier`	Sum (acos + bsin)	O(2oig)	Medium

| :rbf | Sum w*exp(-||x-mu||^2/2sigma^2) | O(oig) | Medium |

Architecture

Input [batch, seq_len, embed_dim]
      |
      v
+-------------------------------------+
|       KAN Block                      |
|  LayerNorm -> KAN Layer -> Residual  |
|  LayerNorm -> KAN Layer -> Residual  |
+-------------------------------------+
      | (repeat for num_layers)
      v
Output [batch, hidden_size]

Usage

# Build KAN backbone
model = KAN.build(
  embed_dim: 287,
  hidden_size: 256,
  num_layers: 4,
  grid_size: 8,
  basis: :sine
)

Comparison with MLP

Aspect	MLP	KAN
Activation	Fixed on nodes	Learnable on edges
Interpretability	Low	High (visualizable)
Parameters	O(n^2)	O(n^2*g) where g=grid
Best for	General tasks	Symbolic/scientific

References

Paper: https://arxiv.org/abs/2404.19756
SineKAN: https://www.frontiersin.org/articles/10.3389/frai.2024.1462952
GitHub: https://github.com/KindXiaoming/pykan

Summary

Types

build_opt()

Options for build/1.

Functions

build(opts \\ [])

Build a KAN model for sequence processing.

build_kan_block(input, opts \\ [])

Build a single KAN block.

build_kan_layer(input, out_size, opts \\ [])

Build a KAN layer with learnable edge activations.

chebyshev_basis(x, arg2)

Compute Chebyshev polynomial basis functions.

default_basis()

Default basis function type

default_dropout()

Default dropout rate

default_grid_size()

Default grid size (number of basis functions)

default_hidden_size()

Default hidden dimension

default_num_layers()

Default number of layers

eps()

Epsilon for numerical stability

output_size(opts \\ [])

Get the output size of a KAN model.

param_count(opts)

Calculate approximate parameter count for a KAN model.

rbf_basis(x, centers, sigma)

Compute RBF (Radial Basis Function) basis.

recommended_defaults()

Get recommended defaults for sequence processing.

sine_basis(x, frequencies, phases)

Compute sine basis functions.