背景與目標
本報告評估完全開源大語言模型(LLM)在企業內部落地部署的可行性,針對 Mac Studio M3 Ultra(512GB 統一記憶體) 硬體,利用 Apple MLX 框架 進行高效推理。排行榜以性能為主要排序依據,滿足以下定義:
免費使用:模型權重和資源免費提供。
開放修改:提供權重和代碼,允許企業內部修改。
商業用途:允許企業內部自用。
MLX 支援:能在 MLX 框架上運行。
硬體基準:Mac Studio M3 Ultra
規格:
晶片:M3 Ultra
CPU:32 核(24 性能核 + 8 效率核)
GPU:80 核
記憶體:512GB 統一記憶體
Neural Engine:32 核
記憶體帶寬:819GB/s
儲存:1TB SSD +48TB Iodyne Pro Data (建議搭配具有Thunderbolt 交換技術的Iodyne Pro Data 48TB)
連接埠:
前置:2 個 Thunderbolt 5 埠(最高 120Gbps),1 個 SDXC (UHS-II) 卡槽
後置:4 個 Thunderbolt 5 埠,2 個 USB-A 埠(5Gbps),1 個 HDMI 2.1 埠,1 個 10Gb 乙太網埠,1 個 3.5mm 耳機孔
無線:Wi-Fi 6E,藍牙 5.3
排行榜(按性能排序)
DeepSeek R1(671B MoE,4-bit)
開發者:DeepSeek
性能:MMLU 90.8,MMLU-Pro 84.0,MATH 90.2,Arena-Hard 92.3% 勝率
參數規模:671B(MoE,激活 37B/Token)
MLX 支援:社群支援(mlx-community/DeepSeek-R1-4bit)
授權許可:MIT
LLaMA 3.3(70B)
開發者:Meta AI
性能:MMLU 82.0,HumanEval 88.4
參數規模:70B
MLX 支援:社群支援(mlx-community/Llama-3.3-70B-Instruct)
授權許可:自定義(允許內部使用)
Qwen2.5(32B)
開發者:Alibaba Cloud
性能:MMLU 82.0,HumanEval 85.0,MATH 75.0
參數規模:32B
MLX 支援:原生支援(qwen/Qwen2.5-32B-Instruct)
授權許可:Apache 2.0
DeepSeek-Coder(33B)
開發者:DeepSeek
性能:HumanEval 75.3
參數規模:33B
MLX 支援:社群支援(mlx-community/deepseek-coder-1.3b-base-mlx)
授權許可:MIT
Mixtral 8x7B
開發者:Mistral AI
性能:MMLU 70+,HumanEval 70+
參數規模:56B(MoE,激活 14B)
MLX 支援:原生支援(mistralai/Mixtral-8x7B-Instruct-v0.1)
授權許可:Apache 2.0
Hermes-2-Pro (LLaMA 3 8B)
開發者:Nous Research
性能:MMLU 70+
參數規模:8B
MLX 支援:社群支援(mlx-community/Hermes-2-Pro-Llama-3-8B)
授權許可:Apache 2.0
TinyLlama 1.1B Chat v1.0
開發者:TinyLlama 社群
性能:MMLU 45-50
參數規模:1.1B
MLX 支援:原生支援(TinyLlama/TinyLlama-1.1B-Chat-v1.0)
授權許可:Apache 2.0
比較表

註釋:
HE:HumanEval(編碼基準)
AH:Arena-Hard(勝率)
記憶體需求:基於 4-bit 量化理論值(參數 * 0.5 bytes)。