Edifice.Transformer.ByteLatentTransformer (Edifice v0.2.0)

Byte Latent Transformer (BLT) — byte-level processing via encode-process-decode.

BLT processes raw byte sequences by encoding bytes into latent patches, processing them with a powerful latent transformer, then decoding back to byte-level predictions. This avoids the need for a fixed tokenizer.

Architecture

Three-component pipeline:

Byte IDs [batch, byte_len]
      |
+----- Encoder -------------------------------------------+
|  Embedding(256, byte_dim) + transformer blocks          |
|  Strided mean pool (patch_size stride) + project        |
|  → [batch, byte_len/patch_size, latent_dim]             |
+----------------------------------------------------------+
      |
+----- Latent Transformer --------------------------------+
|  GQA + RoPE + SwiGLU (DecoderOnly-style)               |
|  output_mode: :all                                      |
|  → [batch, byte_len/patch_size, latent_dim]             |
+----------------------------------------------------------+
      |
+----- Decoder -------------------------------------------+
|  Project + upsample (repeat) + transformer blocks       |
|  Dense(vocab_size)                                      |
|  → [batch, byte_len, vocab_size]                        |
+----------------------------------------------------------+

Returns

A 3-tuple {encoder, latent_transformer, decoder} where each is an independent Axon model.

Usage

{encoder, latent, decoder} = ByteLatentTransformer.build(
  vocab_size: 256,
  patch_size: 4,
  latent_dim: 256,
  byte_dim: 64,
  max_byte_len: 256
)

References

"Byte Latent Transformer: Patches Scale Better Than Tokens" (Meta, 2024) — https://arxiv.org/abs/2412.09871

Summary

Types

build_opt()

Options for build/1.

Functions

build(opts \\ [])

Build a Byte Latent Transformer.

output_size(opts \\ [])

Get the output size of the latent transformer.