Posts

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型增强多语种文档解析

PaddleOCR-VL 是一款面向文档解析的 SOTA 且资源高效的模型。

全新的 PLAS 稀疏注意力更新，让 ERNIE 4.5 模型在长上下文推理中实现了显著的性能提升。

随着文心4.5系列等大模型的陆续开源，围绕其推理性能与部署效率的研究与应用不断增长。基于此，FastDeploy 2.0依托飞桨框架，提供大模型高效部署及高性能推理全栈能力。

文心4.5系列开源模型共10款，涵盖了激活参数规模分别为47B和3B的混合专家（MoE）模型（最大的模型总参数量为424B），以及0.3B的稠密参数模型。针对 MoE 架构，我们提出了一种创新性的多模态异构模型结构，通过跨模态参数共享机制实现模态间知识融合，同时为各单一模态保留专用参数空间。