文心 5.0 (ERNIE 5.0)：2.4 万亿参数的原生全模态大模型

1. 引言

当前大多数多模态模型虽展现出色的理解能力，但在生成端往往局限于文本模态。为了实现多模态生成，业界主流方案通常采用后融合架构，即在预训练语言主干网络上挂接专用的解码器。这类“拼接式”方案虽然有效，但导致了理解与生成的割裂，限制了跨模态推理的深度。

文心 5.0 带来了范式转变。它是原生全模态大模型，采用原生的全模态统一建模技术，将文本、图像、音频、视频联合建模，具备综合的全模态能力。

核心亮点：

2.4 万亿参数：基于统一自回归网络构建的超大规模基础模型。
统一目标：将所有模态映射至共享的符号空间，并通过统一的 下一组 Token 预测（Next-Group-of-Tokens Prediction） 任务进行端到端优化。
全模态能力：彻底消融模态壁垒，实现跨模态理解与生成的无缝衔接。

2. 架构：真正的统一

文心 5.0 采用原生的全模态统一建模技术：

文本建模：采用标准的 下一 Token 预测（Next-Token Prediction, NTP），并辅以 多 Token 预测（Multi-Token Prediction, MTP） 技术以提升推理吞吐量。
视觉建模：引入 下一帧与尺度预测（Next-Frame-and-Scale Prediction, NFSP）。图像被视为单帧视频，使模型能联合学习空间（多尺度）与时间（多帧）表征。
音频建模：实现 下一编解码预测（Next-Codec Prediction, NCP），采用深度自回归分层建模，从语义内容到细粒度声学细节进行逐级刻画。

这种统一的范式使模型能够学习模态间内在的语义对齐，而非仅仅进行表层的特征翻译。

arch

3. 可扩展性与效率

训练 2.4 万亿参数的原生全模态大模型面临严峻的算力挑战，这也是我们通过两项核心技术创新致力解决的问题：

3.1 超稀疏 MoE

我们采用了具备 模态无关路由（Modality-Agnostic Routing） 机制的混合专家（MoE）架构。

共享专家池：专家不再按模态人为划分（如“视觉专家”或“文本专家”），而是完全基于 Token 特征进行动态路由匹配。
<3% 激活率：尽管参数规模达万亿级，但每个 Token 仅激活约 3% 的参数，提供巨大模型容量的同时，将计算成本控制在与小型稠密模型相当的水平。

3.2 弹性训练（Once-For-All）

为满足多样化的部署需求，我们提出 弹性训练（Elastic Training） 策略，通过一次训练即可优化出一个能够派生多种子配置的超网络：

弹性深度：训练过程中随机跳过部分网络层。
弹性宽度：动态限制参与计算的专家池规模。
弹性稀疏度：通过可变 Top-k 路由机制灵活调节推理成本。

这种 “Once-For-All” 的策略支持即时导出高效的子模型，无需进行高成本的二次训练。

4. 训练方法

4.1 数据基座

预训练语料库规模达数万亿 Token，并采用 UTF-16BE 编码以提供更卓越的多语言支持。我们混合使用了配对数据（图文、视文）与交错序列数据，以增强模型跨模态上下文学习的鲁棒性。

4.2 训练基础设施

基于飞桨，文心 5.0 采用自研的混合并行策略，在超稀疏 MoE 架构下实现了大规模稳健训练。整个训练流程采用严格的阶段式推进——上下文窗口从 8K 逐步扩展至 128K，并融合了先进的稳定性技术，有效防止单一模态主导梯度更新。

4.3 后训练

为使文心 5.0 胜任复杂的应用场景，我们构建了专门的强化学习（RL）管线：

U-RB（无偏回放缓存，Unbiased Replay Buffer）：针对长尾分布样本，解决响应效率问题且不引入采样偏差。
稳定机制（MISC 与 WPSM）：缓解熵崩塌问题，并聚焦于难例样本的优化。
AHRL（自适应提示强化学习，Adaptive Hint-based RL）：通过逐渐退出的“思维骨架”提示，为稀疏奖励及重推理任务提供“脚手架”式引导。

5. 评测与结果

文心 5.0 在多模态基准评测上树立了新的 SOTA 标准：

5.1 文本能力

在预训练与后训练评估中，文心 5.0 在知识储备、逻辑推理、代码编程、指令遵循及智能体工具调用等任务上均展现出强劲性能。

table1 （表 1：预训练对比）

table2 （表 2：后训练对比）

5.2 多模态理解

在多样化的基准测试中，模型展示出了卓越的多模态理解能力。

table3 （表 3：多模态理解）

5.3 生成能力

在高保真图像生成与视频生成任务中，模型表现处于行业领先地位。

table5 （表 5：图像生成）

table6 （表 6：视频生成）

5.4 音频能力

在 音频理解（如 TUT2017）任务上达到业界最佳水平，并在 文本转语音 领域实现了极具竞争力的表现。

table7 （表 7：音频理解）

table8 （表 8：文本转语音）

6. 结论

文心 5.0 标志着 AI 从碎片化的“拼装式”时代迈向真正原生多模态智能的关键一步。它成功在单一、弹性且可扩展的自回归框架内统一了理解与生成，为构建像人类认知那样流畅感知与创作的系统奠定了坚实基础。

展望未来，模态无关路由与弹性训练的创新，为在多样化环境中部署超大规模智能开启了新的可能——从云端超算集群到边缘设备，都能在不牺牲核心能力的前提下灵活适配。随着这一统一范式的持续打磨，文心 5.0 将作为坚实底座，推动向通用人工智能（AGI）的下一次飞跃，让“听”“说”“读”“写”“思”的界限真正消融。

@misc{wang2026ernie50technicalreport,
	  title={ERNIE 5.0 Technical Report}, 
	  author={Haifeng Wang and others},
	  year={2026},
	  eprint={2602.04705},
	  archivePrefix={arXiv},
	  primaryClass={cs.CL},
	  url={https://arxiv.org/abs/2602.04705}
}

1. 引言#

2. 架构：真正的统一#

3. 可扩展性与效率#

3.1 超稀疏 MoE#

3.2 弹性训练（Once-For-All）#

4. 训练方法#

4.1 数据基座#

4.2 训练基础设施#

4.3 后训练#

5. 评测与结果#

5.1 文本能力#

5.2 多模态理解#

5.3 生成能力#

5.4 音频能力#

6. 结论#