混合专家模型与预测组合
混合专家模型(Mixture of Experts, MoE)是理解现代 AI 预测系统的一把钥匙。它回答的不是“哪个模型永远最好”,而是“面对这条序列、这个预测步长和这个业务场景,应该相信哪些专家,以及各相信多少”。本章从没有免费午餐(No Free Lunch, NFL)、预测组合(forecast combination)、手工 MoE 练习和现代稀疏激活模型出发,说明 MoE 为什么适合时间序列预测,以及它怎样把专家差异转化为可学习、可评估的系统能力。
学习目标¶
完成本章后,你应该能够:
解释为什么不存在一个在所有预测场景下都最优的模型。
说明组合预测和 MoE 之间的关系。
用手工 MoE 练习理解专家(expert)、门控(gating)和最终预测(final forecast)。
区分等权组合、加权组合、路由(routing)和 Top-K 门控(Top-K gating)。
说明 MoE 如何降低极端预测、过拟合和单一专家失误带来的风险。
判断 MoE 在时间序列基座模型、业务预测平台和管理决策中的适用边界。
为什么要讨论 MoE¶
前面几章已经看到,AI 预测不是把一个模型拿来就结束。真实应用中,手里通常有很多数据,也有很多候选模型。关键问题是匹配:什么样的数据适合什么样的模型,什么样的场景应该调用什么样的工具。
一个自然想法是训练一个唯一的通用模型,让它解决所有问题。但这在理论和实践上都不可靠。即便把大量数据合在一起,也很难得到一个在所有场景下都最优的模型。模型和人一样会有专长:有人擅长创意,有人擅长工程,有人擅长数学;一个模型可能擅长稳定趋势,另一个模型可能擅长强季节性,第三个模型可能更适合促销冲击或高频金融数据。
过去如果只有一千条时间序列和十个候选模型,可以把模型全部跑一遍,再比较误差。进入 API 和大模型时代后,成本变得更重要。把全部数据交给一个外部 API 跑一晚上,第二天发现效果不好,可能已经花掉几千元。再换另一个 API 重跑,又是一笔成本。每一次调用是否能带来有效反馈,必须提前考虑。
自己训练大模型的成本更高。我们用时间序列大模型的训练作例子:一个有效模型可能需要多张 A100 连续训练数周。如果训练很久后才发现效果不佳,时间、算力和资金都会被消耗。因此,我们需要一种低成本、高效率的集成方式,把应用、数据和 AI 工具快速连接起来。MoE 正是这种思想的代表。
MoE 的核心不是“用一个更大的模型压倒所有模型”,而是让多个专家各自处理擅长的问题,再通过一个路由或门控机制把结果组合起来。DeepSeek 等模型受到关注,也与这种思路有关:系统规模可以很大,但每次任务不必激活全部能力,而是激活最相关的一部分专家。
没有免费午餐¶
MoE 的理论背景是没有免费午餐。它的直观含义是:不存在一个工具或模型能在所有场景下都比其他工具更好 Wolpert & Macready, 1997。即使没有学过这个理论,实践中也很容易理解:没有一个老师能把所有课都教得最好,没有一个学生能把所有课都学得最好,没有一个厨师能把所有菜都做得最好,也没有一个司机能把所有车都开得最好。
预测场景也一样。有些产品需求很稳定,比如某些农产品或长期消费品,如果没有极端天气或供应冲击,产出和需求变化较平缓。有些产品季节性很强,比如空调在夏天需求明显更高。有些序列受到促销、节假日、舆情或政策影响;有些序列则像高频金融价格一样噪声大、反馈快、机制复杂。
不同序列需要不同能力:
| 序列形态 | 需要的模型能力 |
|---|---|
| 稳定趋势 | 长期方向、平滑变化、低噪声外推 |
| 强季节性 | 周期结构、日历效应、节假日规律 |
| 冷启动新品 | 跨序列迁移、相似产品经验、少样本适配 |
| 促销需求 | 外生变量、事件冲击、非线性响应 |
| 高频金融 | 局部模式、低延迟、风险约束和微结构信号 |
| 间歇性需求 | 需求是否发生、发生后的规模、服务水平成本 |
因此,模型选择不应只问“哪个模型最高级”,而要问“这个问题像什么,哪些模型在这类问题上有证据”。如果所有问题都交给同一个模型,就会把很多不同形态强行压进同一个判断逻辑里。
大模型也不能完全逃避 No Free Lunch。大模型的综合能力很强,说明它在许多任务上的平均水平高;但当多个强模型都达到较高水平后,真正的差异往往出现在细分场景。一个模型可能在通用聊天中表现很好,但不一定最懂金融交易;一个模型可能语言能力强,但不一定最适合时间序列预测。学习 AI 预测时,要把大模型看成强专家之一,而不是万能答案。
大模型为什么仍然有价值¶
既然大模型也不万能,为什么还要学习它?从传统统计模型进入大模型支持的预测,至少有两个实际价值。
第一,大模型可以把预测能力规模化。传统统计模型在单条序列上可能非常好,但当企业面对上万、上百万条序列时,逐条建模、逐条调参、逐条解释会遇到规模边界。Chronos、TimeGPT 等时间序列基座模型把大量跨领域经验压缩到预训练参数中,使用者整理好 unique_id、ds 和 y,就可以快速生成候选预测。
第二,大模型可以帮助缺少专家经验的场景。一个新产品、新区域或新企业可能只有几百个观测值,内部并没有足够历史判断未来走势。预训练模型在大量相似序列上见过扩张、收缩、季节波动和异常冲击,可以把这些外部经验迁移到当前任务中。这不保证最优,但能把完全没有经验的起点提高到一个较稳定的候选基准。
可以用一个比喻理解:传统统计模型像分散的业余选手,如果恰好选中了适合当前场景的模型,它可能给出很高精度;如果选错,表现也会很差。大模型像经过集中训练的选手,平均水平更稳定,见过的题型更多。但即便如此,它仍然需要面对具体场景的选择问题。MoE 要解决的就是这个选择和组合问题。
从组合预测到 MoE¶
MoE 并不是大模型时代才出现的思想。在时间序列预测中,它和组合预测有很深的关系。Bates 和 Granger 在 1969 年提出 forecast combination, 组合预测的思想:没有一个模型在所有地方都最好,不同模型在某些场景下各有可取之处,因此把多个预测结果组合起来,往往比只相信一个模型更稳健。
最简单的组合是平均。假设有三个模型分别给出预测,最终预测可以取三者均值。复杂一些的组合会给不同模型分配不同权重。如果某个模型在相似场景中过去表现更好,就给它更高权重;如果某个模型经常失误,就降低它的权重。
神经网络预测模型中也有类似思想。例如可以用不同损失函数训练多个模型:一个更重视 MAE,一个更重视 RMSE,一个更重视分位数损失。也可以针对不同预测步长训练模型:有的模型擅长 T + 1,有的模型擅长 T + 7,有的模型擅长 T + 14。短期预测和长期预测关心的模式不同,得到的参数和结果也会不同。
这样会形成一个预测矩阵:
| 维度 | 例子 |
|---|---|
| 模型结构 | ARIMA、ETS、LSTM、Transformer、TimeGPT |
| 损失函数 | MAE、RMSE、分位数损失、业务成本损失 |
| 预测步长 | 1 步、7 步、14 步、长期预测 |
| 输入特征 | 只用历史值、加入日历、加入促销、加入价格 |
| 数据频率 | 小时、日、周、月 |
最终 forecast 可以来自这个矩阵中的多个结果。组合预测解决的是“多个预测者如何合成一个预测”;MoE 则进一步把“谁参与预测、各占多少权重”做成可以学习的机制。
手工练习:MoE¶
我们用一个手工练习解释 MoE。每位同学拿到一张印有时间序列的纸。纸上左边是历史数据,右边留出未来区间。每个同学根据历史走势,在右边画出自己认为未来可能出现的曲线。
在这个练习中,每个同学就是一个 expert,每条手画曲线就是一个 expert forecast(专家预测)。四个同学组成一组,每组有四条独立预测。每个人先独立判断,不抄别人的线。这个设置对应真实业务中的专家预测:管理者面对历史销量、客流或库存数据时,也可能先凭经验形成未来判断。
我们随后给出真实未来走势,并让同学给自己的预测打分。规则很简单:如果预测线和真实线落在同一个格子里,得 1 分;如果落在相邻格子里,得 0.5 分;其他情况得 0 分。这样每个专家都有一个个人预测得分。
接下来,每组把四条预测线组合成一条 MoE 预测。最朴素的方法是在每个时间点取四条线的中间位置或平均位置,再连成最终预测线。注意,MoE 的得分不是四个个人得分的平均,而是组合后那条线本身与真实线比较得到的分数。
这个练习虽然粗糙,但已经包含 MoE 的三个核心部件:
| 练习对象 | MoE 中的含义 |
|---|---|
| 每个同学 | expert, 专家 |
| 每条手画预测线 | expert forecast |
| 选择哪些同学参与 | routing, 路由 |
| 给某些线更高信任 | gating, 门控 |
| 组合后的曲线 | final forecast |
| 真实曲线后的打分 | 样本外评价(out-of-sample evaluation) |
练习的第一个结论是:预测非常难。即便只是一条看起来不复杂的时间序列,很多同学的预测仍然偏离真实走势,也有少数同学表现很好。这说明“看一眼历史曲线就能画出未来”是错觉。真实业务中,如果每个专家都要花很久才能给出预测,而且结果还不稳定,纯人工预测的成本会很高。
第二个结论是:专家之间有显著差异。有人画得保守,有人画得激进;有人认为未来会上升,有人认为会下降。对同一条序列,即使大家看到完全相同的历史数据,共识也不一定高。这种差异不是噪声本身,而是 MoE 可以利用的信息来源。
第三个结论是:组合预测通常“不太差”。MoE 未必总能超过最好专家,但它常常能避免最差专家把结果带偏。如果一个人的预测极端偏高或偏低,平均或加权组合会把这个极端判断拉回中间。如果有一个专家非常接近真实结果,组合也可能把整体预测向正确方向拉动。
为什么 MoE 能降低风险¶
MoE 的价值不在于神奇地找到未来,而在于降低单一判断的脆弱性。
第一,它可以减少极端预测的影响。某个专家在一条序列上预测得很激进,可能刚好猜中,也可能在另一条序列上造成大错。组合机制会让其他专家的判断参与制衡,降低单个极端输出对最终结果的影响。
第二,它可以利用局部专长。一个专家不需要在所有任务上都好,只要在某一类任务上有明显优势,就有价值。例如一个模型擅长季节性需求,另一个模型擅长趋势外推,第三个模型擅长促销冲击。只要 gating 能识别当前序列更像哪一类,专家差异就能转化为预测优势。
第三,它可以降低管理决策风险。管理中常说重大决策要广泛听取意见。MoE 把这件事模型化:多个专家独立判断,再由系统根据证据组合。对企业来说,这比只相信一个人、一个模型或一次 API 输出更稳健。
第四,它可以避免把所有能力塞进一个巨无霸模型。单一大模型训练成本高,推理成本高,也不一定适应所有场景。几个中等复杂度、专长清楚的专家模型,通过路由机制协作,可能更便宜、更可控。
但 MoE 也有前提。如果所有专家高度同质化,给出的预测几乎一样,那么组合没有意义。MoE 真正需要的是差异化专家:不同模型、不同损失、不同输入、不同频率、不同领域经验。差异越有结构,路由越可能学到“谁更适合什么”。
Gating:谁参与,谁更重要¶
手工练习中,最简单的组合是四个同学等权平均。真实 MoE 系统会加入 gating, 也就是门控或路由机制。它要回答两个问题:
当前任务应该交给哪些专家?
每个专家的预测应该占多少权重?
假设当前时间序列被编码成一个状态向量(state vector)。这个向量可以包含历史数值、趋势强度、季节性、波动率、促销、节假日、价格、天气、产品类别和过去误差等信息。gating 网络根据 输出每个专家的权重:
每个专家给出自己的预测:
最终预测就是加权组合:
如果所有 都相等,就是等权平均。如果某些专家权重更大,就是加权组合。softmax 常用于把 gating 输出归一化为权重,使它们可以解释为“相对信任程度”。
真实预测中,gating 看不到未来真实值。它只能根据历史表现、当前特征和相似序列经验来判断。例如,某个专家过去在强季节性序列上表现好,当当前序列也呈现强季节结构时,gating 就可以给它更高权重。某个专家在促销场景下经常低估峰值,遇到促销日就应降低权重或交给更合适的专家。
这说明 MoE 的关键不只是专家本身,还包括“判断专家”的机制。一个预测平台真正要沉淀的,不仅是模型库,还有模型选择经验。
Top-K gating 与稀疏激活¶
如果系统里只有三五个专家,可以让所有专家都参与预测。但现代大模型或大规模预测平台中,专家数量可能很多。每次都激活所有专家,成本会很高。Top-K gating 的思路是:系统有很多专家,但每次只激活权重最高的前 K 个专家。
例如系统中有 64 个专家,当前任务只选择最相关的 2 个或 4 个参与计算。稀疏门控专家层最早就在大规模神经网络中展示了“总容量很大、单次激活较少”的效率思路 Shazeer et al., 2017,Switch Transformer 则进一步把这一路线推向大规模语言模型训练 Fedus et al., 2022。这样可以同时获得两类好处:
模型总体容量很大,因为专家库很丰富。
单次推理成本较低,因为只激活少数专家。
这就是稀疏激活(sparse activation)的价值。系统可以“看起来很大”,但每个输入只使用其中一部分。DeepSeek 等模型引发市场关注,一个重要原因就是这种思路让人重新思考算力成本:AI 发展不只是堆更多 GPU,也包括更聪明的架构、更有效的路由和更低的单次调用成本。
稀疏激活并不是说算力不重要。算力仍然重要,尤其在预训练阶段。但 MoE 提醒我们:同样的预算,可以通过专家分工和路由机制获得更高效率。一个系统不必每次都让所有参数一起工作,就像一个企业不必让所有员工参加每一次会议。
现代 MoE 还可能包含共享专家(shared experts)和稀疏专家(sparse experts)。共享专家处理所有任务都需要的通用能力,稀疏专家处理特定场景。对时间序列预测来说,共享专家可以学习通用趋势和尺度变换,稀疏专家可以分别处理季节性、间歇性、促销、金融高频或冷启动等任务。
MoE 在时间序列预测中的设计¶
把 MoE 放回时间序列,可以从专家设计开始。专家不一定都是同一种模型,也不一定都是神经网络。一个实用预测系统可以同时包含统计模型、机器学习模型、深度模型和人工规则。
| 专家类型 | 可能负责的任务 |
|---|---|
| Naive / Seasonal Naive | 简单基准、稳定季节性序列 |
| ETS / ARIMA | 趋势、季节、可解释单序列预测 |
| Croston / TSB | 间歇性需求和备件需求 |
| LightGBM / XGBoost | 外生变量丰富、表格特征强的任务 |
| LSTM / DeepAR | 多序列共享模式和自回归结构 |
| Transformer / TimeGPT | 跨领域预训练、长上下文和多序列迁移 |
| Chronos / TimesFM | 零样本或少样本时间序列基座模型预测 |
| 业务规则 | 库存约束、政策限制、人工红线 |
gating 的输入也可以分层设计。第一层看序列形态,例如趋势、季节性、波动率、零值比例和历史长度。第二层看业务上下文,例如品类、地区、价格、促销和节假日。第三层看模型历史表现,例如过去滚动窗口误差、预测区间覆盖率、尖峰召回能力和业务成本。
一个简化流程如下:
对每条序列提取统计特征和业务特征。
根据特征选择候选专家,例如 Top-3。
每个专家生成点预测或分位数预测。
gating 根据历史误差和当前特征分配权重。
组合预测输出给评估系统和业务系统。
真实值出现后,把误差反馈给 gating 和专家库。
这个流程把 MoE 和第六章、第七章的评估章节连接起来。没有评估,gating 就没有学习信号;没有滚动窗口,就很难知道专家在相似未来中是否可靠。MoE 不是替代评估,而是更依赖评估。
等权、多数、去极值与业务权重¶
MoE 不一定一开始就要很复杂。很多业务系统可以从简单组合开始。
等权平均 是最低成本方案。所有专家权重相同,适合模型能力相近、没有足够历史误差可学习权重的情况。
按验证误差加权 更进一步。过去在滚动测试中表现好的专家获得更高权重,表现差的专家权重降低。这里要注意,权重应来自过去可见的数据,不能使用未来真实值。
去极值平均 类似体育比赛评分,去掉最高和最低预测,再对中间结果平均。它适合担心极端预测误导决策的场景。
业务成本加权 把库存、缺货、现金流或服务水平写入权重。比如关键备件宁可高估一些也不能缺货,促销销量宁可人工复核也不能盲目低估。
学习式 gating 用模型自动学习权重。它需要更多数据和更严格验证,但能处理高维特征、复杂相似性和多专家系统。
这些方法没有绝对优劣。一个成熟预测平台往往从简单组合开始,再逐步引入学习式 gating。过早使用复杂 MoE 可能会让系统难以解释,也可能在数据不足时过拟合。
回归组合与概率组合¶
我们还要补充两类更一般的组合方法。第一类是基于回归的组合(regression-based combination)。假设多个模型分别给出对 的预测,可以把这些预测值作为解释变量,再用回归模型学习组合系数。它和 MoE 相似,但允许更自由的系数:某个模型的权重可以大于 1,也可以小于 0。
负权重并不一定荒谬。如果某个模型在某类场景中经常反向偏误,它的预测仍然可能提供信息。回归组合可以利用这种反向信号;再配合 LASSO(Least Absolute Shrinkage and Selection Operator)等正则化,还可以把没有贡献的模型系数收缩到零。这样,组合不仅是平均,也可以是带约束的统计学习问题。
第二类是概率组合(probabilistic combination)。点预测可以平均,但预测区间和预测分布不能随便平均。两个模型都声称给出 90% 预测区间,直接把上界平均、下界平均,并不能保证组合后的区间仍然有 90% 覆盖率(coverage)。概率组合要处理的是分布层面的一致性(coherence):均值、分位数、尾部风险和覆盖率都要一起检查。
这说明 MoE 只是预测组合工具谱系中的一部分。它的优势是可以自然嵌入深度学习和大模型架构;但在正式预测系统中,仍应理解回归组合、概率组合和机器学习集成(ensemble)的更广背景。
Many simple experts 与 few complex experts¶
MoE 有两种常见思路。
第一种是 many simple experts: 每个专家很简单,但专家数量很多。它接近“群众智慧”,优点是分散、稳健、容易并行;缺点是如果专家质量参差不齐,平均可能稀释真正有价值的判断。
第二种是 few complex experts: 专家数量不多,但每个专家很强,分别在某些领域有明显优势。现代大模型中的 MoE 更接近这种模式。一个系统可以有文字专家、图像专家、推理专家、代码专家;时间序列内部也可以有趋势专家、季节专家、短期专家、长期专家、促销专家和间歇性需求专家。
选择哪种思路,取决于问题和数据。如果你无法明确构造强专家,可以先用许多简单模型和基准组合,利用稳定性。若你有足够领域知识和历史评估证据,few complex experts 可能更高效。
这也对应学习和职业发展。今天追求“什么都会”越来越难,因为通用能力会被大模型快速覆盖;更有价值的是形成一个明确垂直领域的专长,并学会与其他专家协作。MoE 是模型架构,也是组织协作的隐喻。
MoE 与时间序列基座模型¶
时间序列基座模型需要 MoE 思想,是因为它们面对的数据形态非常多。一个统一模型要处理月度宏观指标、小时级电力负荷、零售销量、交通流量、金融价格和长尾商品需求,就必须有内部差异化能力。Time-MoE 等工作正是在把稀疏专家路由引入大规模时间序列基座模型 Shi et al., 2024。
TimeGPT、Chronos、TimesFM、Moirai 等模型的具体实现不同,但都要解决类似问题:
如何把不同频率、不同长度、不同尺度的序列放入统一表示空间?
如何让模型在短历史、长历史、冷启动和多变量场景中都能工作?
如何决定当前序列更依赖趋势、季节、外生变量还是相似序列经验?
如何在推理成本可控的情况下提供跨领域能力?
MoE 是一种回答。它可以在模型内部路由,也可以在模型外部作为预测平台。内部 MoE 把不同 token、patch 或 embedding 送给不同专家模块;外部 MoE 则把同一业务任务交给多个模型,再在平台层组合结果。
对教学来说,外部 MoE 更容易理解和实现。你可以先把 ARIMA、ETS、LightGBM、TimeGPT 和 Chronos 都当作专家,在同一留后集或滚动窗口上评估,再学习一个简单权重。等理解清楚后,再进入神经网络内部的稀疏 MoE。
与管理决策的关系¶
MoE 也能帮助理解管理决策。企业做预测时,通常有多类信息来源:销售团队、供应链专家、统计模型、AI 模型、市场新闻、促销计划和管理者经验。把这些信息来源变成可比较、可记录、可追踪的预测者,本质上就是把组织经验平台化。
这个练习中,同学们先独立画线,再把预测组合起来。这个过程类似集中决策:先保留独立判断,再进行汇总,而不是一开始就互相影响。真实企业中也应避免所有人先听最高级别人员的判断再表态,否则组合只是在重复同一个声音。
好的预测平台应记录:
每个专家或模型看到了哪些信息。
每个专家在相似历史任务中的表现。
最终采用了哪些专家。
每个专家的权重是多少。
预测错误后应如何复盘。
这样,预测从个人经验转化为组织能力。专家离职、模型升级、业务变化时,系统仍然保留可追溯的证据。
误区和边界¶
MoE 不是万能方法。使用时至少要注意以下边界。
第一,专家必须有差异。如果所有专家都使用相同数据、相同模型、相同损失和相同假设,组合只是重复。
第二,gating 不能偷看未来。权重必须基于预测时可用的信息。用测试集真实误差直接调权重,会造成数据泄漏。
第三,组合可能掩盖关键风险。对关键备件、金融风控或医疗资源等场景,平均预测不一定足够。少数尖峰或尾部风险可能比平均误差更重要。
第四,复杂 MoE 需要足够评估数据。专家越多,gating 越复杂,越容易在历史上过拟合。没有滚动评估和稳定监控,就不能把复杂组合直接用于自动决策。
第五,成本仍然存在。MoE 可以降低单次推理成本,但如果专家库过大、特征工程过重、评估流程复杂,整体系统仍可能变得昂贵。设计 MoE 时要同时考虑预测精度、延迟、可解释性、维护成本和数据隐私。
一个可实施的小项目¶
可以用以下小项目把本章内容落到代码。
选择一个多序列数据集,例如 M4 子集、M5 子集、门店销量或公开电力负荷。对每条序列建立至少四个专家:
Seasonal Naive。
ETS 或 ARIMA。
LightGBM 或 XGBoost。
TimeGPT、Chronos 或另一个时间序列基座模型。
然后做三种组合:
等权平均。
按滚动窗口 MAE 的倒数加权。
按序列特征分组后分别加权,例如强季节性组、间歇性组、短历史组。
最后比较每种方法在测试集上的 MAE、RMSE、sMAPE、预测区间覆盖率和关键业务指标。报告中要说明:哪些专家在哪些序列上更好,组合是否超过最好单模型,哪些场景组合反而变差。
这个项目的重点不是证明 MoE 一定赢,而是训练一种思维:模型库、专家差异、路由规则和评估证据必须一起出现。
小结¶
MoE 把 No Free Lunch 转化成可操作的预测系统。它承认没有单一模型适合所有场景,因此让不同专家分别发挥专长,再用 gating 决定谁参与、谁更重要。组合预测是 MoE 的历史基础,Top-K gating 和稀疏激活是大模型时代的效率扩展。
对时间序列预测来说,MoE 的价值在于处理形态差异:趋势、季节、冷启动、促销、外生变量、高频噪声和间歇性需求都需要不同能力。学习 MoE 后,不应再问“哪个模型最好”,而应问“这个任务需要哪些专家,权重如何学习,评估证据是否支持这个组合”。
练习¶
解释 No Free Lunch 为什么会出现在预测问题中,并举两个业务例子。
用一条销售序列设计四个专家模型,说明每个专家擅长什么。
比较等权平均、验证误差加权和去极值平均的优缺点。
说明 Top-K gating 如何降低大模型推理成本。
设计一个 gating 特征表,至少包含五个序列特征和三个业务特征。
解释为什么 MoE 的得分不是专家得分的简单平均。
找一个场景说明组合预测可能比最好单模型差,并解释原因。
用滚动窗口评估一个简单组合预测,报告单模型和组合模型的误差。
讨论在库存预测中,MoE 的权重是否应该只由 MAE 决定。
写一页短文:MoE 作为模型架构和 MoE 作为管理决策机制有什么共同点。
参考文献¶
- Wolpert, D. H., & Macready, W. G. (1997). No Free Lunch Theorems for Optimization. IEEE Transactions on Evolutionary Computation, 1(1), 67–82. 10.1109/4235.585893
- Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. International Conference on Learning Representations. https://openreview.net/forum?id=B1ckMDqlg
- Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. The Journal of Machine Learning Research, 23(1), 120:5232-120:5270.
- Shi, X., Wang, S., Nie, Y., Li, D., Ye, Z., Wen, Q., & Jin, M. (2024). Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts. https://arxiv.org/abs/2409.16040v1