Edifice.Generative.LinearDiT (Edifice v0.2.0)

Linear DiT / SANA: Diffusion Transformer with Linear Attention.

Implements DiT (Diffusion Transformer) architecture with linear attention replacing the quadratic softmax attention. This achieves comparable image quality at dramatically reduced computational cost.

Key Innovation: Linear Attention in Diffusion

Standard DiT uses O(N²) softmax attention, which becomes prohibitive for high-resolution images. Linear DiT replaces this with O(N) linear attention using kernel feature maps, enabling:

100x speedup for high-resolution generation
Same quality as quadratic DiT
Scalable to 4K+ resolution images

Architecture

Input [batch, num_patches, patch_dim]
      |
      v
+---------------------------+
| Patchify + Position Embed |
+---------------------------+
      |
      v
+---------------------------+
| Linear DiT Block x depth  |
|  AdaLN-Zero(condition)    |
|  Linear Attention         |  <- O(N) instead of O(N²)
|  Residual                 |
|  AdaLN-Zero(condition)    |
|  MLP                      |
|  Residual                 |
+---------------------------+
      |
      v
| Final AdaLN + Linear     |
      |
      v
Output [batch, num_patches, patch_dim]

Linear Attention Mechanism

Standard: Attn(Q,K,V) = softmax(QK^T/sqrt(d)) * V [O(N²)]

Linear: Attn(Q,K,V) = phi(Q) * (phi(K)^T * V) / (phi(Q) * sum(phi(K))) [O(N)]

Where phi(x) = ELU(x) + 1 ensures non-negative attention weights.

Usage

model = LinearDiT.build(
  input_dim: 64,
  hidden_size: 512,
  num_layers: 12,
  num_heads: 8,
  patch_size: 2
)

References

SANA: "Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer" (2024)
DiT: "Scalable Diffusion Models with Transformers" (Peebles & Xie, 2023)
Linear Attention: "Transformers are RNNs" (Katharopoulos et al., 2020)

Summary

Types

build_opt()

Options for build/1.

Functions

build(opts \\ [])

Build a Linear DiT model for diffusion denoising with linear attention.

build_linear_dit_block(input, condition, opts)

Build a single Linear DiT block with AdaLN-Zero conditioning and linear attention.

output_size(opts \\ [])

Get the output size of a Linear DiT model.

param_count(opts)

Calculate approximate parameter count for a Linear DiT model.

recommended_defaults()

Get recommended defaults for Linear DiT / SANA.