Definition

MoE(Mixture of Experts,混合专家模型)是一种将模型拆分为多个独立”专家网络”并通过门控机制动态选择激活专家的架构。MoE实现了”条件计算”(Conditional Computation),使模型总参数量可大幅增加而计算成本仅线性增长。

Core Formula

  • E_i(x): 第i个专家网络的输出(每个专家可能是FFN或小型Transformer)
  • G(x): 门控网络,输出稀疏权重(通常只激活Top-1或Top-2专家)

Key Components

  • 专家网络(Experts):独立的FFN或小型Transformer,参数量远小于全量模型
  • 门控网络(Gating Network):轻量级线性层+Softmax,G(x) = Softmax(W_g * x + b_g)
  • 负载均衡(Load Balancing):辅助损失函数防止专家被过度激活或闲置

Advantages

  • 计算高效:参数量大幅增加(万亿级),计算成本仅线性增长
  • 任务适应性:不同专家隐式学习不同领域知识

Challenges

  • 训练不稳定:专家间”马太效应”(强者恒强)
  • 通信开销:分布式训练中跨设备路由

Notable Implementations

  • Switch Transformer(Google, 2021):1.6万亿参数,每输入仅激活约1000亿
  • GShard(Google, 2020):机器翻译中部署MoE,专家分布于不同GPU

Relationships

  • Transformer — MoE通常替换Transformer中的FFN层
  • MultiHeadAttention — MoE与多头注意力共享”条件计算”设计理念
  • SparseAttention — 稀疏注意力与MoE共享”稀疏激活”思想
  • RAG — Agentic RAG中的多代理协作与MoE思路相通

Sources