3月13日,据外媒wccftech报道,苹果公司在本周早些时候苹果推出了新款Mac Studio,搭载其最强大的M3 Ultra芯片,刷新了该公司自己的PC处理器性能巅峰,可以运行满血版DeepSeek R1模型。
据介绍,M3 Ultra芯片通过UltraFusion封装架构,将两枚M3 Max晶粒整合在一起,集成了1840亿个晶体管,配备最多32核心的CPU(包括24个性能核心和8个能效核心)、最多80核心的GPU和32核神经网络引擎,最高可配置512GB的统一内存(起步内存为96GB),配合超过800GB/s的内存带宽,可在搭载M3 Ultra芯片的Mac Studio上运行包含超6000亿参数的大语言模型 (LLM)。与M2 Ultra芯片相比,可以提供更强的计算和图形性能。 M3 Ultra芯片还能运行满血版DeepSeek R1模型(拥有6710亿个参数的庞大模型),足以证明自己的性能强劲。
需要指出的,满血版的DeepSeek R1大模型拥有6710亿个参数,需要大容量的高带宽内存才能运行。据了解,DeepSeek R1满血版(671B)模型在FP16精度下,显存需求高达1.34TB,4-bit量化显存也需要约350GB,至少需要16张英伟达(NVIDIA)H100 80GB + NVLink/InfiniBand互联才能满足本地化部署要求,但是这也带来了功耗、成本的大幅提升。
而M3 Ultra采用了苹果的统一存内存架构,最高可以支持高达512GB的统一内存,使得M3 Ultra芯片在运行满血版的DeepSeek R1大模型方面有独特的优势,并以较低的功耗展现出令人印象深刻的效果。
YouTube频道博主@Dave2D 也分享了详细讯息,比较了M3 Ultra芯片和之前的苹果芯片在DeepSeek R1大模型上的性能差异。
通过@Dave2D 分享的对比信息来看,M3 Ultra运行较小的AI模型无需使用全部资源即可持续流畅地运行,对于满血版的DeepSeek R1大模型来说,需要苹果最高配置的M3 Ultra芯片——高达512GB。 然而,苹果macOS默认对VRAM分配进行了限制,@Dave2D 必须通过终端手动增加限制,将其增加到448GB。
DeepSeek R1模型在M3 Ultra Mac Studio上成功流畅运行,而且尽管是牺牲精度的4bit量化版本,模型仍然保留了6710亿个参数,表现得出奇的好。 虽然竞争对手可以通过多个GPU实现相同的性能,但M3 Ultra芯片在能耗和成本方面更占上风。 运行强大的DeepSeek R1模型时,整个系统的功耗不到200W。 其功耗只是有同等性能的PC实现类似结果所需功耗的一小部分。@Dave2D 还指出,传统的多GPU配置所需的功率比M3 Ultra芯片将高10倍。
编辑:芯智讯-浪客剑