易特艾弗网络科技

动态

DeepSeek发布Prover-V2模型 参数达6710亿

时间:2025-04-30 22:40 浏览:

  在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提高推理效率。