Edifice.Vision.MambaVision (Edifice v0.2.0)

MambaVision: A Hybrid Mamba-Transformer Vision Backbone.

Implements the MambaVision architecture from "MambaVision: A Hybrid Mamba-Transformer Vision Backbone" (Hatamizadeh & Kautz, NVIDIA, 2024). A hierarchical 4-stage vision backbone that uses CNN blocks in early stages and hybrid Mamba SSM + windowed self-attention in later stages.

Key Innovation

Instead of applying Mamba uniformly (like Vim/VMamba), MambaVision uses a stage-appropriate mix:

Stages 1-2: Pure CNN blocks (fast at high resolution)
Stages 3-4: First half Mamba SSM, second half windowed attention

The MambaVisionMixer modifies standard Mamba with:

Non-causal convolution (no directional bias for 2D data)
Dual-branch: SSM on half channels, symmetric Conv+SiLU on other half
Concatenation instead of multiplicative gating

Architecture

Input: (B, 3, 224, 224)
  -> PatchEmbed (2x Conv3x3 stride 2 = 4x downsample)
  -> Stage 1 (ConvBlocks)           -> Downsample (Conv stride 2)
  -> Stage 2 (ConvBlocks)           -> Downsample
  -> Stage 3 (Mamba + Attention)    -> Downsample
  -> Stage 4 (Mamba + Attention)
  -> LayerNorm -> Global Avg Pool -> Linear -> Output

Channel progression: dim -> 2dim -> 4dim -> 8*dim

Model Variants

Variant	dim	depths	Params
Tiny	80	[1,3,8,4]	~32M
Small	96	[3,3,7,5]	~50M
Base	128	[3,3,10,5]	~98M

Usage

model = MambaVision.build(
  image_size: 224,
  dim: 80,
  depths: [1, 3, 8, 4],
  num_heads: [2, 4, 8, 16],
  num_classes: 10
)

References

Paper: https://arxiv.org/abs/2407.08083
Code: https://github.com/NVlabs/MambaVision

Summary

Types

build_opt()

Options for build/1.

Functions

base_config()

Get the Base variant configuration.

build(opts \\ [])

Build a MambaVision model.

output_size(opts \\ [])

Get the output size of a MambaVision model.

small_config()

Get the Small variant configuration.

tiny_config()

Get the Tiny variant configuration.