在DeepSeek推理任务中,华为昇腾910C已达英伟达H100性能的60%!

2月5日消息,据tomshardware等多家媒体报道, 华为最新的AI处理器昇腾910C(Ascend 910C)的推理性能已经达到了英伟达(NVIDIA)H100 GPU的60%。虽然昇腾910C性能与英伟达最新的Blackwell系列AI芯片相比仍有很大差距,但它有助于降低中国对英伟达GPU的依赖。

根据DeepSeek 研究人员的测试数据显示,在执行基于DeepSeek模型的推理任务中,昇腾910C性能可达到英伟达H100的60%。

这显示出,华为尽管受美国的制裁,无法获得台积电的先进制程技术的支持,华为AI处理器的能力仍在快速进步。据介绍,昇腾910C采用chiplet封装,整合约530亿个晶体管。过去昇腾910芯片采用台积电N7+制程,而昇腾910C芯片则由中芯国际第二代7纳米级(N+2)制程制造。

若透过手动优化CUNN核心,昇腾910C性能还可进一步提升。此外,DeepSeek 对升腾处理器的原生支持,以及其PyTorch储存库可让CUDA到CUNN无缝转换,让华为硬件更容易整合到AI工作流程中。

据了解,DeepSeek的支持为华为芯片带来了关键优势: 从第一天起就支持华为昇腾芯片,自主维护PyTorch仓库,只需一行代码就能将CUDA转换为CANN;而且性能优化潜力巨大,通过定制优化可达到更高性能。

据华为官网介绍, CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构 ,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供高效易用的编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。

据了解,CANN分社区版和商用版。 前者是快速提供新特性的体验版,供开发者提前试用;而后者是满足商用标准的稳定版本。目前,CANN社区版已经来到了8.0.0.alpha003版本,针对Ascend C进行了特性增强。而商用版CANN 8.0.RC3版本也已经发布,新增适配7个操作系统,简化了CANN安装流程。

DeepSeek的Yuchen Jin表示,“长周期训练的稳定性是中国芯片最大难关”。这涉及英伟达软硬体生态系统的深度整合,CUDA护城河已经发展二十多年。虽然推理性能可继续改善,但持续的训练工作负载需要华为进一步改进软硬体堆叠。

有专家预测,随着AI模型向“Transformer构架”(如GPT、BERT等)靠拢,CUDA和PyTorch编译器的重要性将降低。此外,DeepSeek 团队在软硬体优化方面的专长,也可能大幅降低对英伟达CUDA的依赖,大幅节省成本。

此前的研究显示,DeepSeek使用英伟达的H800芯片训练时,使用英伟达底层硬件指令PTX(Parallel Thread Execution)语言,而非高级编程语言CUDA。这似乎也意味着DeepSeek绕过了CUDA,使用更底层的编程语言做优化。

对于程序开发人员来说,CUDA是一种更加友好的高级语言,开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在GPU等硬件上具体如何执行计算的,从而能够降低开发难度。而PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread / Warp级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。

北京航空航天大学副教授黄雷表示,绕过CUDA可以直接根据GPU的驱动函数做一些新的开发,从而实现更加细粒度的操作。这也说明DeepSeek拥有一些擅长写PTX语言的内部开发者。 假如它之后使用国产GPU,其在硬件适配方面将会更得心应手,其只要了解这些硬件驱动提供的一些基本函数接口 , 就可以仿照英伟达GPU硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。

编辑:芯智讯-林子

0

付费内容

查看我的付费内容