ERNIE-4.5-VL-28B-A3B-Thinking：多模态智能领域的重要突破

模型亮点

基于强大的 ERNIE-4.5-VL-28B-A3B 架构，全新升级的 ERNIE-4.5-VL-28B-A3B-Thinking 在多模态推理能力上实现了显著飞跃。🧠✨ 在扩展的中期训练阶段中，模型吸收了大规模且高度多样化的高质量视觉-语言推理数据语料。这一阶段显著增强了模型的表征能力，并进一步深化了视觉与语言模态之间的语义对齐，从而在细粒度视觉-文本推理任务中展现出前所未有的表现力。📊

模型在可验证任务上引入了先进的多模态强化学习技术，结合 GSPO 与 IcePop 策略，有效稳定了 MoE（Mixture of Experts） 的训练过程，并通过动态难度采样机制显著提升了学习效率。⚡针对社区反馈与实际需求，模型在 视觉定位（Grounding） 能力上进行了全面增强，同时优化了 指令理解与执行能力，使视觉定位与指令交互功能更易调用、更可靠。🎯 此外，全新的 “Think with Image” 模式支持模型在推理过程中结合图像放大与图像检索等工具，实现对细粒度视觉细节的更精准理解，并能够覆盖更广泛的长尾视觉知识。🔍🖼️

这些改进共同构成了构建高级多模态智能体的核心基础，为开发者与研究人员提供了强大的工具支持，使其能够探索并构建新一代视觉-语言理解系统，推动多模态人工智能在复杂推理与应用场景中的边界持续拓展。🤖🌟

核心能力

作为一款仅激活 30亿参数 的轻量级模型 ⚡，ERNIE-4.5-VL-28B-A3B-Thinking 在多项权威基准测试中展现出接近业界顶级旗舰模型的性能表现。凭借高效的参数利用率与优化的推理架构，模型在视觉任务上实现了接近SOTA（state-of-the-art）的表现，同时保持了出色的计算效率。🚀

视觉推理 🧠👁️：得益于大规模强化学习训练，模型在复杂视觉任务中展现出卓越的多步推理、图表分析与因果推理能力，其表现已可与 Gemini-2.5-Pro 相媲美。📊✨
STEM 推理 🔬📐：凭借强大的视觉理解能力，模型在 STEM 类任务（如求解图片中的物理、数学问题）中实现了性能跃升，能够轻松应对复杂题目。🎯💡
视觉定位（Grounding） 📍🎨：具备更高精度的定位能力与灵活的指令执行机制，可在复杂的工业级场景中快速触发 Grounding 功能，大幅提升效率。⚙️💪
图像思考（Thinking with Images） 🤔🔍：模型能够像人类一样“带着图像思考”，可自由放大与缩小画面，从细节中获取完整信息，实现对视觉内容的深层理解。🖼️✨
工具使用 🛠️⚡：依托强大的工具调用能力，模型可即时使用图像搜索等功能，高效识别长尾知识，实现全面的信息检索与整合。🔎📚
视频理解 🎬🎥：模型具备出色的时间感知与事件定位能力，能够精准识别视频不同时间片段中的内容变化，使视频分析更智能、更高效。⏱️🌟

案例展示

视觉推理

案例：分析高峰时段图表，合理安排业务办理时间

在本案例中，模型接收到一张展示每周不同时段客流强度的“高峰提示”图表。

用户请求模型在 2025 年 11 月 8 日至 12 日 期间，结合图表内容，找出避开高峰时段与业务高峰日的最合适来访时间。

+ERNIE-4.5-VL-28B-A3B-Thinking 首先确定了用户给定日期对应的星期，对图表进行结构化解析，识别出低客流时段（12:00–14:00），并结合日期与业务规律进行逻辑匹配，最终输出清晰的时间建议结果。

STEM 推理

案例：求解桥式电路的等效电阻

在本案例中，用户输入一个结构复杂的桥式电路，并要求模型计算 A、B 两点间的等效电阻。

该问题无法通过简单的串并联化简求解，需要应用 欧姆定律（Ohm’s Law） 与 基尔霍夫电流定律（KCL） 进行完整的多步分析。

ERNIE-4.5-VL-28B-A3B-Thinking 首先理解电路结构，确定各节点关系，建立电流方程。随后，模型设定各支路电流变量，根据KCL写出节点方程，并结合欧姆定律列出电压方程，最终得出正确结果 R = 7/5 Ω（约 1.4 Ω），并进行了正确性检验。推理过程逻辑严谨、层次清晰。

视觉定位（Grounding）

案例：检测穿西装的人并输出结构化坐标

在本案例中，模型接收到一张包含多个人物的超现实场景图像，以及指令：“图中有多少个穿西服的人，请用 JSON 格式输出以上物体的坐标和 bbox_2d 位置。”

ERNIE-4.5-VL-28B-A3B-Thinking 严格遵循指令，准确检测出所有目标人物，并输出包含精确数值坐标的完整边界框列表。

该输出结果体现了模型在 视觉 Grounding 方面的能力——能够将语言指令与图像区域正确对应，同时在结构化结果生成中保持高度的指令遵循性。

图像思考（Thinking with Images）

案例：通过图像缩放识别蓝底标牌文字

在本案例中，用户提出问题：“在人行道旁墙上的蓝底标牌上写的是什么？”

ERNIE-4.5-VL-28B-A3B-Thinking 首先分析整张图像，定位蓝底标牌位置，并自主调用 图像放大工具（image zoom-in tool） 对标牌细节进行进一步观察。

模型在放大后的画面中准确识别出蓝底白字内容为 “HOTEL BUZA”。

该案例展示了模型的 图像思考（Think with Images） 能力，模型通过调用图片放大功能，聚焦细节区域完成细粒度的视觉推理。

工具调用

案例：调用图片搜索工具识别毛绒玩具

在本案例中，模型接收到一张黄色卡通小鸡的图片，并被询问：“这是什么？”

ERNIE-4.5-VL-28B-A3B-Thinking 判断仅依靠内部知识无法给出确定答案，于是自主调用 图像搜索工具（image search tool），从网络中检索相似图片及相关商品信息。

模型对比多组候选结果的外观特征与上下文线索，最终推断该角色为 “Dundun”，即与 MINISO（名创优品）品牌相关的毛绒玩偶形象。

该案例展示了模型的 工具调用（Tool Utilization） 能力——能够进行多步推理，即时自主调用外部工具输出连贯、可靠的结论。

视频理解

案例：提取视频字幕并定位特定场景

在本案例中，模型接收到一段视频，并完成了两项相关的视频理解任务。

首先，模型提取出视频中出现的所有字幕文本及其对应的时间戳，并进行结构化输出。

随后，当被询问“视频中哪些片段是在桥上拍摄的”时，模型通过分析桥梁结构、光照与视角等视觉线索，准确识别出约 17 秒、37 秒与 47 秒 的相关片段。

该案例展示了 ERNIE-4.5-VL-28B-A3B-Thinking 在 视频文字提取、时间推理 与 时空场景理解 方面的综合能力，使其能够对动态视觉内容进行准确且可解释的分析。

Quickstart

使用 transformers 库

以下示例展示了如何使用 transformers 库进行推理：

import torch
from transformers import AutoProcessor, AutoTokenizer, AutoModelForCausalLM

model_path = 'baidu/ERNIE-4.5-VL-28B-A3B-Thinking'
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",
    dtype=torch.bfloat16,
    trust_remote_code=True
)

processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model.add_image_preprocess(processor)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "What color clothes is the girl in the picture wearing?"
            },
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example1.jpg"
                }
            },
        ]
    },
]

text = processor.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
image_inputs, video_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)

device = next(model.parameters()).device
inputs = inputs.to(device)

generated_ids = model.generate(
    inputs=inputs['input_ids'].to(device),
    **inputs,
    max_new_tokens=1024,
    use_cache=False
    )
output_text = processor.decode(generated_ids[0][len(inputs['input_ids'][0]):])
print(output_text)

vLLM 推理

安装 vLLM 主分支：

pip install uv
uv pip install -U vllm --pre \
  --extra-index-url https://wheels.vllm.ai/nightly \
  --extra-index-url https://download.pytorch.org/whl/cu129 \
  --index-strategy unsafe-best-match

运行 vLLM：

# 80G*1 GPU，如出现错误，可添加参数 --gpu-memory-utilization 0.95 后重试
vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code

使用 reasoning-parser 与 tool-call-parser 运行 vLLM：

# 80G*1 GPU，如出现错误，可添加参数 --gpu-memory-utilization 0.95 后重试
vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code \
 --reasoning-parser ernie45  \
 --tool-call-parser ernie45  \
 --enable-auto-tool-choice

FastDeploy 推理

可以使用 FastDeploy 快速部署服务，示例如下。详细使用说明可参考 FastDeploy GitHub 仓库。.

注意: 单卡部署至少需要 80GB 显存。

fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \
  --max-model-len 131072 \
  --max-num-seqs 32 \
  --port 8180 \
  --quantization wint8 \
  --reasoning-parser ernie-45-vl-thinking \
  --tool-call-parser ernie-45-vl-thinking \
  --mm-processor-kwargs '{"image_max_pixels": 12845056 }'

使用 ERNIEKit 微调

ERNIEKit 是基于 PaddlePaddle 的训练工具套件，面向 ERNIE 系列开源大模型设计。
其支持指令微调（SFT、LoRA）与对齐训练（DPO）等场景，提供端到端训练配置与脚本，便于获得稳定性能。

使用示例：

# 下载模型
huggingface-cli download baidu/ERNIE-4.5-VL-28B-A3B-Thinking --local-dir baidu/ERNIE-4.5-VL-28B-A3B-Thinking
# SFT
erniekit train examples/configs/ERNIE-4.5-VL-28B-A3B-Thinking/sft/run_sft_lora_8k.yaml
# SFT (Function Call)
erniekit train examples/configs/ERNIE-4.5-VL-28B-A3B-Thinking/sft_function_call/run_sft_8k.yaml

如需查看更多示例（包括基于 LoRA 的 SFT、多 GPU 配置及高级脚本），请参阅 ERNIEKit 仓库中的 examples 目录。

许可证

引用

如果您在研究或项目中使用了 ERNIE 4.5 模型，请引用以下技术报告：

@misc{ernie2025technicalreport,
      title={ERNIE 4.5 Technical Report},
      author={Baidu-ERNIE-Team},
      year={2025},
      primaryClass={cs.CL},
      howpublished={\url{https://ernie.baidu.com/blog/publication/ERNIE_Technical_Report.pdf}}
}

模型亮点#

核心能力#

案例展示#

视觉推理#

案例：分析高峰时段图表，合理安排业务办理时间#

STEM 推理#

案例：求解桥式电路的等效电阻#

视觉定位（Grounding）#

案例：检测穿西装的人并输出结构化坐标#

图像思考（Thinking with Images）#

案例：通过图像缩放识别蓝底标牌文字#

工具调用#

案例：调用图片搜索工具识别毛绒玩具#

视频理解#

案例：提取视频字幕并定位特定场景#

Quickstart#

使用 transformers 库#

vLLM 推理#

FastDeploy 推理#

使用 ERNIEKit 微调#

许可证#

引用#