Edifice.Transformer.MultiTokenPrediction (Edifice v0.2.0)

Multi-Token Prediction (MTP) — predict multiple future tokens simultaneously.

Wraps a backbone transformer (DecoderOnly by default) with multiple independent prediction heads. Each head projects the backbone's hidden states to vocabulary logits for a different future position.

Key Innovation: Parallel Next-Token Heads

Instead of predicting only the next token, MTP attaches N independent dense layers to the backbone output, each predicting a different future position. This provides richer training signal and enables speculative decoding at inference time.

Architecture

Input [batch, seq_len, embed_dim]
      |
Backbone (output_mode: :all)
      |
[batch, seq_len, hidden_size]
      |
+-- Head 1: dense(vocab_size) -> pred_1 [batch, seq_len, vocab_size]
+-- Head 2: dense(vocab_size) -> pred_2 [batch, seq_len, vocab_size]
+-- ...
+-- Head N: dense(vocab_size) -> pred_N [batch, seq_len, vocab_size]
      |
Axon.container(%{pred_1: h1, pred_2: h2, ..., pred_N: hN})

Usage

model = MultiTokenPrediction.build(
  embed_dim: 256,
  vocab_size: 32000,
  num_predictions: 4
)

References

"Better & Faster Large Language Models via Multi-token Prediction" (Gloeckle et al., 2024) — https://arxiv.org/abs/2404.19737

Summary

Types

build_opt()

Options for build/1.

Functions

build(opts \\ [])

Build a Multi-Token Prediction model.

output_size(opts \\ [])

Get the output size of the model (hidden_size of backbone).