FastDeploy 2.0:原生支持文心4.5的大模型推理部署框架
随着文心4.5系列等大模型的陆续开源,围绕其推理性能与部署效率的研究与应用不断增长。基于此,FastDeploy 2.0依托飞桨框架,提供大模型高效部署及高性能推理全栈能力。
随着文心4.5系列等大模型的陆续开源,围绕其推理性能与部署效率的研究与应用不断增长。基于此,FastDeploy 2.0依托飞桨框架,提供大模型高效部署及高性能推理全栈能力。
文心4.5系列开源模型共10款,涵盖了激活参数规模分别为47B和3B的混合专家(MoE)模型(最大的模型总参数量为424B),以及0.3B的稠密参数模型。针对 MoE 架构,我们提出了一种创新性的多模态异构模型结构,通过跨模态参数共享机制实现模态间知识融合,同时为各单一模态保留专用参数空间。