新芒xAI 4月27日消息 据网传消息,Deepseek R2 即将推出,其自研分布式训练框架亮点十足。
该框架在华为 Ascend 910B 芯片集群上利用率达 82% ,以 FP16 精度实现 512 petaflops 运算,与同规模 A100 集群相比效率达 91%,单位成本降低 97.3% 。
模型参数达 1.2T,激活参数 78B,采用混合专家混合(MoE)架构 ,训练数据量达 5.2PB,在 C-Eval2.0 上得分 89.7% ,在 COCO 上视觉表现达 92.4% 。
新芒xAI 4月27日消息 据网传消息,Deepseek R2 即将推出,其自研分布式训练框架亮点十足。
该框架在华为 Ascend 910B 芯片集群上利用率达 82% ,以 FP16 精度实现 512 petaflops 运算,与同规模 A100 集群相比效率达 91%,单位成本降低 97.3% 。
模型参数达 1.2T,激活参数 78B,采用混合专家混合(MoE)架构 ,训练数据量达 5.2PB,在 C-Eval2.0 上得分 89.7% ,在 COCO 上视觉表现达 92.4% 。