关于Transformer和MoE框架的一点思考

Summary

对比分析Transformer和MoE（混合专家模型）两种架构的函数式本质。Transformer是统一的深度非线性函数，所有参数对任何输入全量激活；MoE引入门控机制动态选择激活专家，本质是”条件计算”范式。MoE的”多段”不是静态分块函数，而是基于输入语义的特征路由。文章还介绍了MoE的核心组件（专家网络、门控网络）、优势（计算高效、任务适应性）和挑战（训练不稳定、通信开销）。

Key Claims

Transformer：y = f_theta(x)，所有参数对任何输入全量激活，是统一函数式
MoE：y = sum(G(x)_i * E_i(x))，门控网络G(x)输出稀疏权重，动态选择激活专家
MoE的”多段函数”不同于传统分块函数：传统分块是静态空间划分，MoE是基于输入语义的动态特征路由
门控网络通常是轻量级线性层+Softmax，训练时添加噪声促进专家多样性
MoE优势：参数量可大幅增加但计算成本仅线性增长（如Switch Transformer 1.6万亿参数仅激活约1000亿）
MoE挑战：专家间”马太效应”、分布式训练中的跨设备路由通信开销

Key Quotes

“MoE的本质是通过门控机制动态组合多个子模型（专家），形成一种’条件计算’范式” — MoE核心定义

“输入’量子力学’可能激活物理知识专家，而’莎士比亚’激活文学专家” — MoE语义路由的直觉理解

“这种设计不仅符合’多段函数’的直觉，更通过可学习的路由机制超越了传统的静态分块函数” — MoE与分块函数的关系

Connections

Transformer — MoE通常在Transformer的FFN层替换为专家网络
MoE — MoE混合专家模型概念页
MultiHeadAttention — MoE与多头注意力在”条件计算”思路上异曲同工
SparseAttention — 稀疏注意力与MoE共享”稀疏激活”的设计理念

JRY's digital garden

Explorer

关于Transformer和MoE框架的一点思考

Summary

Key Claims

Key Quotes

Connections

Contradictions

Graph View

Table of Contents

Backlinks