Abstract
Motif V1 是 Codon 体系中的基础视觉编码器。它旨在将高维像素数据压缩为离散的、语义丰富的 Latent Token。 该模型采用了混合架构设计,结合了卷积网络的局部特征提取能力与 Attention 机制的全局上下文感知能力。 为了适应未来大规模生成的需要,我们引入了 Lookup Free Quantization (LFQ) 以替代传统的 Codebook 查找。
Data Flow
Input
[B, 3, H, W]
→
[B, 3, H, W]
Encoder
Conv + Attn
→
Conv + Attn
Quantizer
LFQ (Codebook)
→
LFQ (Codebook)
Decoder
PixelShuffle
→
PixelShuffle
Output
Reconstruction
Reconstruction
MRoPE Integration
使用了 Multidimensional Rotary Positional Embedding。在 2D 特征图上引入旋转位置编码,增强了模型对空间几何关系的理解能力,优于传统的绝对位置编码。
Lookup Free Quantization
采用 LFQ (Linear Projection) 替代 Vector Quantization。通过将 latent 投影到超立方体顶点,极大降低了 Codebook Collapse 的风险,并提高了训练稳定性。
Module Hierarchy
v1_architecture.log
MotifV1(
# Encoder: Compresses image to latent space
(encoder): MotifV1Encoder(
(down_blocks): ModuleList(
# Series of ResBlocks and Downsample Convs
(0): ResBasicBlock(...)
(1): ConvBlock(stride=2)
...
)
(mid_attn): SpatialMultiHeadAttention(
(rope): MRoPEInterleavedEmbedding()
(q_proj): Linear(in=256, out=256)
)
)
# Quantization: Continuous -> Discrete
(quantizer): LFQ(
(project_in): Linear(in=256, out=14)
(project_out): Linear(in=14, out=256)
)
# Decoder: Reconstructs image from latent
(decoder): MotifV1Decoder(
(mid_attn): SpatialMultiHeadAttention(...)
(up_blocks): ModuleList(
(0): ResBasicBlock(...)
(1): Sequential(
(0): ConvBlock(...)
(1): PixelShuffle(upscale_factor=2)
)
...
)
(conv_out): Conv2d(out=3)
)
)