Summary

对比分析Transformer和MoE(混合专家模型)两种架构的函数式本质。Transformer是统一的深度非线性函数,所有参数对任何输入全量激活;MoE引入门控机制动态选择激活专家,本质是”条件计算”范式。MoE的”多段”不是静态分块函数,而是基于输入语义的特征路由。文章还介绍了MoE的核心组件(专家网络、门控网络)、优势(计算高效、任务适应性)和挑战(训练不稳定、通信开销)。

Key Claims

  • Transformer:y = f_theta(x),所有参数对任何输入全量激活,是统一函数式
  • MoE:y = sum(G(x)_i * E_i(x)),门控网络G(x)输出稀疏权重,动态选择激活专家
  • MoE的”多段函数”不同于传统分块函数:传统分块是静态空间划分,MoE是基于输入语义的动态特征路由
  • 门控网络通常是轻量级线性层+Softmax,训练时添加噪声促进专家多样性
  • MoE优势:参数量可大幅增加但计算成本仅线性增长(如Switch Transformer 1.6万亿参数仅激活约1000亿)
  • MoE挑战:专家间”马太效应”、分布式训练中的跨设备路由通信开销

Key Quotes

“MoE的本质是通过门控机制动态组合多个子模型(专家),形成一种’条件计算’范式” — MoE核心定义

“输入’量子力学’可能激活物理知识专家,而’莎士比亚’激活文学专家” — MoE语义路由的直觉理解

“这种设计不仅符合’多段函数’的直觉,更通过可学习的路由机制超越了传统的静态分块函数” — MoE与分块函数的关系

Connections

  • Transformer — MoE通常在Transformer的FFN层替换为专家网络
  • MoE — MoE混合专家模型概念页
  • MultiHeadAttention — MoE与多头注意力在”条件计算”思路上异曲同工
  • SparseAttention — 稀疏注意力与MoE共享”稀疏激活”的设计理念

Contradictions