混合专家模型与预测组合

混合专家模型（Mixture of Experts, MoE）是理解现代 AI 预测系统的一把钥匙。它回答的不是“哪个模型永远最好”，而是“面对这条序列、这个预测步长和这个业务场景，应该相信哪些专家，以及各相信多少”。本章从没有免费午餐（No Free Lunch, NFL）、预测组合（forecast combination）、手工 MoE 练习和现代稀疏激活模型出发，说明 MoE 为什么适合时间序列预测，以及它怎样把专家差异转化为可学习、可评估的系统能力。

学习目标¶

完成本章后，你应该能够：

解释为什么不存在一个在所有预测场景下都最优的模型。
说明组合预测和 MoE 之间的关系。
用手工 MoE 练习理解专家（expert）、门控（gating）和最终预测（final forecast）。
区分等权组合、加权组合、路由（routing）和 Top-K 门控（Top-K gating）。
说明 MoE 如何降低极端预测、过拟合和单一专家失误带来的风险。
判断 MoE 在时间序列基座模型、业务预测平台和管理决策中的适用边界。

为什么要讨论 MoE¶

前面几章已经看到，AI 预测不是把一个模型拿来就结束。真实应用中，手里通常有很多数据，也有很多候选模型。关键问题是匹配：什么样的数据适合什么样的模型，什么样的场景应该调用什么样的工具。

一个自然想法是训练一个唯一的通用模型，让它解决所有问题。但这在理论和实践上都不可靠。即便把大量数据合在一起，也很难得到一个在所有场景下都最优的模型。模型和人一样会有专长：有人擅长创意，有人擅长工程，有人擅长数学；一个模型可能擅长稳定趋势，另一个模型可能擅长强季节性，第三个模型可能更适合促销冲击或高频金融数据。

过去如果只有一千条时间序列和十个候选模型，可以把模型全部跑一遍，再比较误差。进入 API 和大模型时代后，成本变得更重要。把全部数据交给一个外部 API 跑一晚上，第二天发现效果不好，可能已经花掉几千元。再换另一个 API 重跑，又是一笔成本。每一次调用是否能带来有效反馈，必须提前考虑。

自己训练大模型的成本更高。我们用时间序列大模型的训练作例子：一个有效模型可能需要多张 A100 连续训练数周。如果训练很久后才发现效果不佳，时间、算力和资金都会被消耗。因此，我们需要一种低成本、高效率的集成方式，把应用、数据和 AI 工具快速连接起来。MoE 正是这种思想的代表。

MoE 的核心不是“用一个更大的模型压倒所有模型”，而是让多个专家各自处理擅长的问题，再通过一个路由或门控机制把结果组合起来。DeepSeek 等模型受到关注，也与这种思路有关：系统规模可以很大，但每次任务不必激活全部能力，而是激活最相关的一部分专家。

没有免费午餐¶

MoE 的理论背景是没有免费午餐。它的直观含义是：不存在一个工具或模型能在所有场景下都比其他工具更好 Wolpert & Macready, 1997。即使没有学过这个理论，实践中也很容易理解：没有一个老师能把所有课都教得最好，没有一个学生能把所有课都学得最好，没有一个厨师能把所有菜都做得最好，也没有一个司机能把所有车都开得最好。

预测场景也一样。有些产品需求很稳定，比如某些农产品或长期消费品，如果没有极端天气或供应冲击，产出和需求变化较平缓。有些产品季节性很强，比如空调在夏天需求明显更高。有些序列受到促销、节假日、舆情或政策影响；有些序列则像高频金融价格一样噪声大、反馈快、机制复杂。

不同序列需要不同能力：

序列形态	需要的模型能力
稳定趋势	长期方向、平滑变化、低噪声外推
强季节性	周期结构、日历效应、节假日规律
冷启动新品	跨序列迁移、相似产品经验、少样本适配
促销需求	外生变量、事件冲击、非线性响应
高频金融	局部模式、低延迟、风险约束和微结构信号
间歇性需求	需求是否发生、发生后的规模、服务水平成本

因此，模型选择不应只问“哪个模型最高级”，而要问“这个问题像什么，哪些模型在这类问题上有证据”。如果所有问题都交给同一个模型，就会把很多不同形态强行压进同一个判断逻辑里。

大模型也不能完全逃避 No Free Lunch。大模型的综合能力很强，说明它在许多任务上的平均水平高；但当多个强模型都达到较高水平后，真正的差异往往出现在细分场景。一个模型可能在通用聊天中表现很好，但不一定最懂金融交易；一个模型可能语言能力强，但不一定最适合时间序列预测。学习 AI 预测时，要把大模型看成强专家之一，而不是万能答案。

大模型为什么仍然有价值¶

既然大模型也不万能，为什么还要学习它？从传统统计模型进入大模型支持的预测，至少有两个实际价值。

第一，大模型可以把预测能力规模化。传统统计模型在单条序列上可能非常好，但当企业面对上万、上百万条序列时，逐条建模、逐条调参、逐条解释会遇到规模边界。Chronos、TimeGPT 等时间序列基座模型把大量跨领域经验压缩到预训练参数中，使用者整理好 unique_id、ds 和 y，就可以快速生成候选预测。

第二，大模型可以帮助缺少专家经验的场景。一个新产品、新区域或新企业可能只有几百个观测值，内部并没有足够历史判断未来走势。预训练模型在大量相似序列上见过扩张、收缩、季节波动和异常冲击，可以把这些外部经验迁移到当前任务中。这不保证最优，但能把完全没有经验的起点提高到一个较稳定的候选基准。

可以用一个比喻理解：传统统计模型像分散的业余选手，如果恰好选中了适合当前场景的模型，它可能给出很高精度；如果选错，表现也会很差。大模型像经过集中训练的选手，平均水平更稳定，见过的题型更多。但即便如此，它仍然需要面对具体场景的选择问题。MoE 要解决的就是这个选择和组合问题。

从组合预测到 MoE¶

MoE 并不是大模型时代才出现的思想。在时间序列预测中，它和组合预测有很深的关系。Bates 和 Granger 在 1969 年提出 forecast combination, 组合预测的思想：没有一个模型在所有地方都最好，不同模型在某些场景下各有可取之处，因此把多个预测结果组合起来，往往比只相信一个模型更稳健。

最简单的组合是平均。假设有三个模型分别给出预测，最终预测可以取三者均值。复杂一些的组合会给不同模型分配不同权重。如果某个模型在相似场景中过去表现更好，就给它更高权重；如果某个模型经常失误，就降低它的权重。

神经网络预测模型中也有类似思想。例如可以用不同损失函数训练多个模型：一个更重视 MAE，一个更重视 RMSE，一个更重视分位数损失。也可以针对不同预测步长训练模型：有的模型擅长 T + 1，有的模型擅长 T + 7，有的模型擅长 T + 14。短期预测和长期预测关心的模式不同，得到的参数和结果也会不同。

这样会形成一个预测矩阵：

维度	例子
模型结构	ARIMA、ETS、LSTM、Transformer、TimeGPT
损失函数	MAE、RMSE、分位数损失、业务成本损失
预测步长	1 步、7 步、14 步、长期预测
输入特征	只用历史值、加入日历、加入促销、加入价格
数据频率	小时、日、周、月

最终 forecast 可以来自这个矩阵中的多个结果。组合预测解决的是“多个预测者如何合成一个预测”；MoE 则进一步把“谁参与预测、各占多少权重”做成可以学习的机制。

手工练习：MoE¶

我们用一个手工练习解释 MoE。每位同学拿到一张印有时间序列的纸。纸上左边是历史数据，右边留出未来区间。每个同学根据历史走势，在右边画出自己认为未来可能出现的曲线。

在这个练习中，每个同学就是一个 expert，每条手画曲线就是一个 expert forecast（专家预测）。四个同学组成一组，每组有四条独立预测。每个人先独立判断，不抄别人的线。这个设置对应真实业务中的专家预测：管理者面对历史销量、客流或库存数据时，也可能先凭经验形成未来判断。

我们随后给出真实未来走势，并让同学给自己的预测打分。规则很简单：如果预测线和真实线落在同一个格子里，得 1 分；如果落在相邻格子里，得 0.5 分；其他情况得 0 分。这样每个专家都有一个个人预测得分。

接下来，每组把四条预测线组合成一条 MoE 预测。最朴素的方法是在每个时间点取四条线的中间位置或平均位置，再连成最终预测线。注意，MoE 的得分不是四个个人得分的平均，而是组合后那条线本身与真实线比较得到的分数。

这个练习虽然粗糙，但已经包含 MoE 的三个核心部件：

练习对象	MoE 中的含义
每个同学	expert, 专家
每条手画预测线	expert forecast
选择哪些同学参与	routing, 路由
给某些线更高信任	gating, 门控
组合后的曲线	final forecast
真实曲线后的打分	样本外评价（out-of-sample evaluation）

练习的第一个结论是：预测非常难。即便只是一条看起来不复杂的时间序列，很多同学的预测仍然偏离真实走势，也有少数同学表现很好。这说明“看一眼历史曲线就能画出未来”是错觉。真实业务中，如果每个专家都要花很久才能给出预测，而且结果还不稳定，纯人工预测的成本会很高。

第二个结论是：专家之间有显著差异。有人画得保守，有人画得激进；有人认为未来会上升，有人认为会下降。对同一条序列，即使大家看到完全相同的历史数据，共识也不一定高。这种差异不是噪声本身，而是 MoE 可以利用的信息来源。

第三个结论是：组合预测通常“不太差”。MoE 未必总能超过最好专家，但它常常能避免最差专家把结果带偏。如果一个人的预测极端偏高或偏低，平均或加权组合会把这个极端判断拉回中间。如果有一个专家非常接近真实结果，组合也可能把整体预测向正确方向拉动。

为什么 MoE 能降低风险¶

MoE 的价值不在于神奇地找到未来，而在于降低单一判断的脆弱性。

第一，它可以减少极端预测的影响。某个专家在一条序列上预测得很激进，可能刚好猜中，也可能在另一条序列上造成大错。组合机制会让其他专家的判断参与制衡，降低单个极端输出对最终结果的影响。

第二，它可以利用局部专长。一个专家不需要在所有任务上都好，只要在某一类任务上有明显优势，就有价值。例如一个模型擅长季节性需求，另一个模型擅长趋势外推，第三个模型擅长促销冲击。只要 gating 能识别当前序列更像哪一类，专家差异就能转化为预测优势。

第三，它可以降低管理决策风险。管理中常说重大决策要广泛听取意见。MoE 把这件事模型化：多个专家独立判断，再由系统根据证据组合。对企业来说，这比只相信一个人、一个模型或一次 API 输出更稳健。

第四，它可以避免把所有能力塞进一个巨无霸模型。单一大模型训练成本高，推理成本高，也不一定适应所有场景。几个中等复杂度、专长清楚的专家模型，通过路由机制协作，可能更便宜、更可控。

但 MoE 也有前提。如果所有专家高度同质化，给出的预测几乎一样，那么组合没有意义。MoE 真正需要的是差异化专家：不同模型、不同损失、不同输入、不同频率、不同领域经验。差异越有结构，路由越可能学到“谁更适合什么”。

Gating：谁参与，谁更重要¶

手工练习中，最简单的组合是四个同学等权平均。真实 MoE 系统会加入 gating, 也就是门控或路由机制。它要回答两个问题：

当前任务应该交给哪些专家？
每个专家的预测应该占多少权重？

假设当前时间序列被编码成一个状态向量（state vector） $x_t$ 。这个向量可以包含历史数值、趋势强度、季节性、波动率、促销、节假日、价格、天气、产品类别和过去误差等信息。gating 网络根据 $x_t$ 输出每个专家的权重：

g_1(x_t), g_2(x_t), \ldots, g_K(x_t)

(1)

每个专家给出自己的预测：

\hat{y}_{t+h}^{(1)}, \hat{y}_{t+h}^{(2)}, \ldots, \hat{y}_{t+h}^{(K)}

(2)

最终预测就是加权组合：

\hat{y}_{t+h} = \sum_k g_k(x_t)\hat{y}_{t+h}^{(k)}

(3)

如果所有 $g_k$ 都相等，就是等权平均。如果某些专家权重更大，就是加权组合。softmax 常用于把 gating 输出归一化为权重，使它们可以解释为“相对信任程度”。

真实预测中，gating 看不到未来真实值。它只能根据历史表现、当前特征和相似序列经验来判断。例如，某个专家过去在强季节性序列上表现好，当当前序列也呈现强季节结构时，gating 就可以给它更高权重。某个专家在促销场景下经常低估峰值，遇到促销日就应降低权重或交给更合适的专家。

这说明 MoE 的关键不只是专家本身，还包括“判断专家”的机制。一个预测平台真正要沉淀的，不仅是模型库，还有模型选择经验。

Top-K gating 与稀疏激活¶

如果系统里只有三五个专家，可以让所有专家都参与预测。但现代大模型或大规模预测平台中，专家数量可能很多。每次都激活所有专家，成本会很高。Top-K gating 的思路是：系统有很多专家，但每次只激活权重最高的前 K 个专家。

例如系统中有 64 个专家，当前任务只选择最相关的 2 个或 4 个参与计算。稀疏门控专家层最早就在大规模神经网络中展示了“总容量很大、单次激活较少”的效率思路 Shazeer et al., 2017，Switch Transformer 则进一步把这一路线推向大规模语言模型训练 Fedus et al., 2022。这样可以同时获得两类好处：

模型总体容量很大，因为专家库很丰富。
单次推理成本较低，因为只激活少数专家。

这就是稀疏激活（sparse activation）的价值。系统可以“看起来很大”，但每个输入只使用其中一部分。DeepSeek 等模型引发市场关注，一个重要原因就是这种思路让人重新思考算力成本：AI 发展不只是堆更多 GPU，也包括更聪明的架构、更有效的路由和更低的单次调用成本。

稀疏激活并不是说算力不重要。算力仍然重要，尤其在预训练阶段。但 MoE 提醒我们：同样的预算，可以通过专家分工和路由机制获得更高效率。一个系统不必每次都让所有参数一起工作，就像一个企业不必让所有员工参加每一次会议。

现代 MoE 还可能包含共享专家（shared experts）和稀疏专家（sparse experts）。共享专家处理所有任务都需要的通用能力，稀疏专家处理特定场景。对时间序列预测来说，共享专家可以学习通用趋势和尺度变换，稀疏专家可以分别处理季节性、间歇性、促销、金融高频或冷启动等任务。

MoE 在时间序列预测中的设计¶

把 MoE 放回时间序列，可以从专家设计开始。专家不一定都是同一种模型，也不一定都是神经网络。一个实用预测系统可以同时包含统计模型、机器学习模型、深度模型和人工规则。

专家类型	可能负责的任务
Naive / Seasonal Naive	简单基准、稳定季节性序列
ETS / ARIMA	趋势、季节、可解释单序列预测
Croston / TSB	间歇性需求和备件需求
LightGBM / XGBoost	外生变量丰富、表格特征强的任务
LSTM / DeepAR	多序列共享模式和自回归结构
Transformer / TimeGPT	跨领域预训练、长上下文和多序列迁移
Chronos / TimesFM	零样本或少样本时间序列基座模型预测
业务规则	库存约束、政策限制、人工红线

gating 的输入也可以分层设计。第一层看序列形态，例如趋势、季节性、波动率、零值比例和历史长度。第二层看业务上下文，例如品类、地区、价格、促销和节假日。第三层看模型历史表现，例如过去滚动窗口误差、预测区间覆盖率、尖峰召回能力和业务成本。

一个简化流程如下：

对每条序列提取统计特征和业务特征。
根据特征选择候选专家，例如 Top-3。
每个专家生成点预测或分位数预测。
gating 根据历史误差和当前特征分配权重。
组合预测输出给评估系统和业务系统。
真实值出现后，把误差反馈给 gating 和专家库。

这个流程把 MoE 和第六章、第七章的评估章节连接起来。没有评估，gating 就没有学习信号；没有滚动窗口，就很难知道专家在相似未来中是否可靠。MoE 不是替代评估，而是更依赖评估。

等权、多数、去极值与业务权重¶

MoE 不一定一开始就要很复杂。很多业务系统可以从简单组合开始。

等权平均 是最低成本方案。所有专家权重相同，适合模型能力相近、没有足够历史误差可学习权重的情况。

按验证误差加权 更进一步。过去在滚动测试中表现好的专家获得更高权重，表现差的专家权重降低。这里要注意，权重应来自过去可见的数据，不能使用未来真实值。

去极值平均 类似体育比赛评分，去掉最高和最低预测，再对中间结果平均。它适合担心极端预测误导决策的场景。

业务成本加权 把库存、缺货、现金流或服务水平写入权重。比如关键备件宁可高估一些也不能缺货，促销销量宁可人工复核也不能盲目低估。

学习式 gating 用模型自动学习权重。它需要更多数据和更严格验证，但能处理高维特征、复杂相似性和多专家系统。

这些方法没有绝对优劣。一个成熟预测平台往往从简单组合开始，再逐步引入学习式 gating。过早使用复杂 MoE 可能会让系统难以解释，也可能在数据不足时过拟合。

回归组合与概率组合¶

我们还要补充两类更一般的组合方法。第一类是基于回归的组合（regression-based combination）。假设多个模型分别给出对 $Y_{t+h}$ 的预测，可以把这些预测值作为解释变量，再用回归模型学习组合系数。它和 MoE 相似，但允许更自由的系数：某个模型的权重可以大于 1，也可以小于 0。

负权重并不一定荒谬。如果某个模型在某类场景中经常反向偏误，它的预测仍然可能提供信息。回归组合可以利用这种反向信号；再配合 LASSO（Least Absolute Shrinkage and Selection Operator）等正则化，还可以把没有贡献的模型系数收缩到零。这样，组合不仅是平均，也可以是带约束的统计学习问题。

第二类是概率组合（probabilistic combination）。点预测可以平均，但预测区间和预测分布不能随便平均。两个模型都声称给出 90% 预测区间，直接把上界平均、下界平均，并不能保证组合后的区间仍然有 90% 覆盖率（coverage）。概率组合要处理的是分布层面的一致性（coherence）：均值、分位数、尾部风险和覆盖率都要一起检查。

这说明 MoE 只是预测组合工具谱系中的一部分。它的优势是可以自然嵌入深度学习和大模型架构；但在正式预测系统中，仍应理解回归组合、概率组合和机器学习集成（ensemble）的更广背景。

Many simple experts 与 few complex experts¶

MoE 有两种常见思路。

第一种是 many simple experts: 每个专家很简单，但专家数量很多。它接近“群众智慧”，优点是分散、稳健、容易并行；缺点是如果专家质量参差不齐，平均可能稀释真正有价值的判断。

第二种是 few complex experts: 专家数量不多，但每个专家很强，分别在某些领域有明显优势。现代大模型中的 MoE 更接近这种模式。一个系统可以有文字专家、图像专家、推理专家、代码专家；时间序列内部也可以有趋势专家、季节专家、短期专家、长期专家、促销专家和间歇性需求专家。

选择哪种思路，取决于问题和数据。如果你无法明确构造强专家，可以先用许多简单模型和基准组合，利用稳定性。若你有足够领域知识和历史评估证据，few complex experts 可能更高效。

这也对应学习和职业发展。今天追求“什么都会”越来越难，因为通用能力会被大模型快速覆盖；更有价值的是形成一个明确垂直领域的专长，并学会与其他专家协作。MoE 是模型架构，也是组织协作的隐喻。

MoE 与时间序列基座模型¶

时间序列基座模型需要 MoE 思想，是因为它们面对的数据形态非常多。一个统一模型要处理月度宏观指标、小时级电力负荷、零售销量、交通流量、金融价格和长尾商品需求，就必须有内部差异化能力。Time-MoE 等工作正是在把稀疏专家路由引入大规模时间序列基座模型 Shi et al., 2024。

TimeGPT、Chronos、TimesFM、Moirai 等模型的具体实现不同，但都要解决类似问题：

如何把不同频率、不同长度、不同尺度的序列放入统一表示空间？
如何让模型在短历史、长历史、冷启动和多变量场景中都能工作？
如何决定当前序列更依赖趋势、季节、外生变量还是相似序列经验？
如何在推理成本可控的情况下提供跨领域能力？

MoE 是一种回答。它可以在模型内部路由，也可以在模型外部作为预测平台。内部 MoE 把不同 token、patch 或 embedding 送给不同专家模块；外部 MoE 则把同一业务任务交给多个模型，再在平台层组合结果。

对教学来说，外部 MoE 更容易理解和实现。你可以先把 ARIMA、ETS、LightGBM、TimeGPT 和 Chronos 都当作专家，在同一留后集或滚动窗口上评估，再学习一个简单权重。等理解清楚后，再进入神经网络内部的稀疏 MoE。

与管理决策的关系¶

MoE 也能帮助理解管理决策。企业做预测时，通常有多类信息来源：销售团队、供应链专家、统计模型、AI 模型、市场新闻、促销计划和管理者经验。把这些信息来源变成可比较、可记录、可追踪的预测者，本质上就是把组织经验平台化。

这个练习中，同学们先独立画线，再把预测组合起来。这个过程类似集中决策：先保留独立判断，再进行汇总，而不是一开始就互相影响。真实企业中也应避免所有人先听最高级别人员的判断再表态，否则组合只是在重复同一个声音。

好的预测平台应记录：

每个专家或模型看到了哪些信息。
每个专家在相似历史任务中的表现。
最终采用了哪些专家。
每个专家的权重是多少。
预测错误后应如何复盘。

这样，预测从个人经验转化为组织能力。专家离职、模型升级、业务变化时，系统仍然保留可追溯的证据。

误区和边界¶

MoE 不是万能方法。使用时至少要注意以下边界。

第一，专家必须有差异。如果所有专家都使用相同数据、相同模型、相同损失和相同假设，组合只是重复。

第二，gating 不能偷看未来。权重必须基于预测时可用的信息。用测试集真实误差直接调权重，会造成数据泄漏。

第三，组合可能掩盖关键风险。对关键备件、金融风控或医疗资源等场景，平均预测不一定足够。少数尖峰或尾部风险可能比平均误差更重要。

第四，复杂 MoE 需要足够评估数据。专家越多，gating 越复杂，越容易在历史上过拟合。没有滚动评估和稳定监控，就不能把复杂组合直接用于自动决策。

第五，成本仍然存在。MoE 可以降低单次推理成本，但如果专家库过大、特征工程过重、评估流程复杂，整体系统仍可能变得昂贵。设计 MoE 时要同时考虑预测精度、延迟、可解释性、维护成本和数据隐私。

一个可实施的小项目¶

可以用以下小项目把本章内容落到代码。

选择一个多序列数据集，例如 M4 子集、M5 子集、门店销量或公开电力负荷。对每条序列建立至少四个专家：

Seasonal Naive。
ETS 或 ARIMA。
LightGBM 或 XGBoost。
TimeGPT、Chronos 或另一个时间序列基座模型。

然后做三种组合：

等权平均。
按滚动窗口 MAE 的倒数加权。
按序列特征分组后分别加权，例如强季节性组、间歇性组、短历史组。

最后比较每种方法在测试集上的 MAE、RMSE、sMAPE、预测区间覆盖率和关键业务指标。报告中要说明：哪些专家在哪些序列上更好，组合是否超过最好单模型，哪些场景组合反而变差。

这个项目的重点不是证明 MoE 一定赢，而是训练一种思维：模型库、专家差异、路由规则和评估证据必须一起出现。

小结¶

MoE 把 No Free Lunch 转化成可操作的预测系统。它承认没有单一模型适合所有场景，因此让不同专家分别发挥专长，再用 gating 决定谁参与、谁更重要。组合预测是 MoE 的历史基础，Top-K gating 和稀疏激活是大模型时代的效率扩展。

对时间序列预测来说，MoE 的价值在于处理形态差异：趋势、季节、冷启动、促销、外生变量、高频噪声和间歇性需求都需要不同能力。学习 MoE 后，不应再问“哪个模型最好”，而应问“这个任务需要哪些专家，权重如何学习，评估证据是否支持这个组合”。

练习¶

解释 No Free Lunch 为什么会出现在预测问题中，并举两个业务例子。
用一条销售序列设计四个专家模型，说明每个专家擅长什么。
比较等权平均、验证误差加权和去极值平均的优缺点。
说明 Top-K gating 如何降低大模型推理成本。
设计一个 gating 特征表，至少包含五个序列特征和三个业务特征。
解释为什么 MoE 的得分不是专家得分的简单平均。
找一个场景说明组合预测可能比最好单模型差，并解释原因。
用滚动窗口评估一个简单组合预测，报告单模型和组合模型的误差。
讨论在库存预测中，MoE 的权重是否应该只由 MAE 决定。
写一页短文：MoE 作为模型架构和 MoE 作为管理决策机制有什么共同点。

参考文献¶

References¶

Wolpert, D. H., & Macready, W. G. (1997). No Free Lunch Theorems for Optimization. IEEE Transactions on Evolutionary Computation, 1(1), 67–82. 10.1109/4235.585893
Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. International Conference on Learning Representations. https://openreview.net/forum?id=B1ckMDqlg
Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. The Journal of Machine Learning Research, 23(1), 120:5232-120:5270.
Shi, X., Wang, S., Nie, Y., Li, D., Ye, Z., Wen, Q., & Jin, M. (2024). Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts. https://arxiv.org/abs/2409.16040v1