Motif V1 Specs - Codon Lab

Abstract

Motif V1 是 Codon 体系中的基础视觉编码器。它旨在将高维像素数据压缩为离散的、语义丰富的 Latent Token。该模型采用了混合架构设计，结合了卷积网络的局部特征提取能力与 Attention 机制的全局上下文感知能力。为了适应未来大规模生成的需要，我们引入了 Lookup Free Quantization (LFQ) 以替代传统的 Codebook 查找。

Data Flow

Input
[B, 3, H, W]

→

Encoder
Conv + Attn

→

Quantizer
LFQ (Codebook)

→

Decoder
PixelShuffle

→

Output
Reconstruction

MRoPE Integration

使用了 Multidimensional Rotary Positional Embedding。在 2D 特征图上引入旋转位置编码，增强了模型对空间几何关系的理解能力，优于传统的绝对位置编码。

Lookup Free Quantization

采用 LFQ (Linear Projection) 替代 Vector Quantization。通过将 latent 投影到超立方体顶点，极大降低了 Codebook Collapse 的风险，并提高了训练稳定性。

Module Hierarchy

v1_architecture.log

MotifV1(
  # Encoder: Compresses image to latent space
  (encoder): MotifV1Encoder(
    (down_blocks): ModuleList(
      # Series of ResBlocks and Downsample Convs
      (0): ResBasicBlock(...)
      (1): ConvBlock(stride=2)
      ...
    )
    (mid_attn): SpatialMultiHeadAttention(
      (rope): MRoPEInterleavedEmbedding()
      (q_proj): Linear(in=256, out=256)
    )
  )

  # Quantization: Continuous -> Discrete
  (quantizer): LFQ(
    (project_in): Linear(in=256, out=14)
    (project_out): Linear(in=14, out=256)
  )

  # Decoder: Reconstructs image from latent
  (decoder): MotifV1Decoder(
    (mid_attn): SpatialMultiHeadAttention(...)
    (up_blocks): ModuleList(
      (0): ResBasicBlock(...)
      (1): Sequential(
        (0): ConvBlock(...)
        (1): PixelShuffle(upscale_factor=2)
      )
      ...
    )
    (conv_out): Conv2d(out=3)
  )
)