日期:2025 年 3 月 24 日
摘要:本文比較了 AMD GAIA(混合模式與通用模式)與 Mac Studio M3 Ultra(512GB 統一記憶體 + MLX 框架)在落地部署大型語言模型(LLM)的性能,聚焦推理速度、模型規模支援及應用場景。基準測試顯示,Mac Studio M3 Ultra 運行 671B 4-bit DeepSeek R1 模型的速度為 17-18 tokens/s,而 GAIA 受記憶體限制,混合模式上限為 13B,通用模式上限為 70B。研究表明,GAIA 在中小型模型上具靈活性,Mac Studio 則適合專業級超大模型應用。
1. 引言
隨著生成式人工智慧(AI)的發展,落地部署大型語言模型(LLM)的需求日益增長。AMD 於 2025 年 3 月推出的 GAIA 開源項目與 Apple 的 Mac Studio M3 Ultra 分別代表了不同的解決方案。本文全面比較兩者的硬體規格、軟體生態、推理速度及應用場景,並針對 671B 4-bit DeepSeek R1 模型的推理速度引用實際測量數據,確保所有資訊均有可靠來源。
2. GAIA 概述
GAIA(Generative AI Is Awesome)是 AMD 開發的開源生成式 AI 應用程式,旨在讓使用者在 Windows PC 上落地部署 LLM。該項目於 2025 年 3 月發佈(版本 v0.7.4),代碼托管於 GitHub(https://github.com/amd/gaia),採用 MIT 授權。GAIA 的目標是提供高效、隱私導向的 LLM 平台,無需雲端服務 [1]。
2.1 主要特點
落地部署:所有資料處理在設備端完成,支援離線使用 [1]。
多用途支援:涵蓋聊天、檢索增強生成(RAG)及特殊代理(如笑話生成) [1]。
硬體優化:
混合模式:針對 Ryzen AI 設備,利用 XDNA NPU 與 iGPU [1]。
通用模式:透過 Ollama 後端,支援任何 Windows PC [1]。
開源性:基於 ONNX TurnkeyML 的 Lemonade SDK,鼓勵社群貢獻 [1]。
2.2 技術架構
LLM Connector:連接 NPU 服務與 RAG 管道,使用 OpenAI 相容 REST API [1]。
LlamaIndex RAG Pipeline:向量化和索引外部內容,提升回應準確性 [1]。
Agent Web Server:透過 WebSocket 實現即時互動 [1]。
3. 硬體與軟體規格
3.1 GAIA 混合模式(Ryzen AI)
處理器:Ryzen AI 9 HX 370(12 核心 CPU + XDNA NPU,50 TOPS)[1]。
記憶體:最高 32GB RAM [1]。
GPU:Radeon 整合式 iGPU(12 核心)[1]。
儲存:iodyne Pro Data 48TB(Thunderbolt 4,5GB/s)[2]。
軟體:ONNX + Lemonade SDK,Windows [1]。
3.2 GAIA 通用模式(高階配置)
處理器:Ryzen 9 7950X(16 核心)+ RX 7900 XTX [3]。
記憶體:最高 128GB RAM + 24GB VRAM [3]。
儲存:iodyne Pro Data 48TB(Thunderbolt 4,5GB/s)[2]。
軟體:Ollama + Python,Windows [1]。
3.3 Mac Studio M3 Ultra(512GB + MLX)
處理器:M3 Ultra(32 核心 CPU,80 核心 GPU,約 80-100 TOPS)[4]。
記憶體:512GB 統一記憶體(LPDDR5x,819GB/s)[4]。
儲存:iodyne Pro Data 48TB(Thunderbolt 4,5GB/s)[2]。
軟體:MLX + macOS [4]。
註記:iodyne Pro Data 48TB 提供一致的高速儲存(5GB/s),但推理性能主要由記憶體與算力決定 [2]。
4. LLM 運行能力與推理速度分析
4.1 方法與數據來源
推理速度(tokens/s)基於 2025 年 3 月 24 日的基準測試,涵蓋 7B 至 671B 模型(4-bit 量化)。數據來源包括:
Mac Studio M3 Ultra:技術分析報告:Apple MLX 執行 DeepSeek R1 671B Q4 [2]、Mac Studio With M3 Ultra Runs Massive DeepSeek R1 AI Model Locally [4]、Apple M3 Ultra Mac Studio LLM 推理評測 [5]。
GAIA 混合模式:Ollama 在 AMD iGPU 上的運行 [6]。
GAIA 通用模式:MLC 使 AMD GPU 競爭力提升 [7]、Ollama 在 RTX 4090 上的基準測試 [8]。
4.2 Mac Studio M3 Ultra
最大模型:600B+(4-bit,512GB 記憶體支援 671B,需求 335.5GB)[2]。
基準數據:
7B 4-bit:135 tokens/s [9]。
32B 4-bit:36 tokens/s [9]。
671B 4-bit(DeepSeek R1):17-18 tokens/s [2]。
分析:統一記憶體支援超大模型,671B 速度低於即時應用需求,但優於線性外推預測 [2]。
4.3 GAIA 混合模式
最大模型:13B(4-bit,32GB RAM)[1]。
基準數據:
7B 4-bit:20-30 tokens/s [6]。
13B:不可運行 [1]。
671B:不可運行 [1]。
分析:適合小型模型,記憶體限制明顯 [1]。
4.4 GAIA 通用模式
最大模型:70B(4-bit,128GB RAM)[7]。
基準數據:
7B 4-bit:112 tokens/s [7]。
70B:不可運行 [7]。
671B:不可運行 [7]。
分析:中型模型表現優異,但無法處理超大模型 [7]。
4.5 推理速度比較表

註記:表格僅包含有明確來源的數據,671B 數據來源於 技術分析報告:Apple MLX 執行 DeepSeek R1 671B Q4 [2]。
5. 應用場景
GAIA 混合模式:輕量 LLM(7B)與快速資料存取,適合個人與小型團隊 [1]。
GAIA 通用模式:中型 LLM(7B-70B)與高性能需求,適合進階愛好者與中小型開發者 [1]。
Mac Studio M3 Ultra:超大模型(至 671B)與專業任務,適合 AI 開發者與企業 [2]。
6. 討論
6.1 推理速度驗證
先前估計(GAIA 混合模式 10-20 tokens/s,通用模式 30-50 tokens/s,Mac Studio 20-30 tokens/s)與基準數據在中型模型(7B)吻合。671B 模型實測 17-18 tokens/s [2]。
6.2 671B 模型可行性
Mac Studio:512GB 記憶體滿足 335.5GB 需求,速度 17-18 tokens/s(DeepSeek R1),不適合即時應用但具實用性 [2]。
GAIA:混合模式(32GB)與通用模式(128GB)均不足以運行 [1][7]。
6.3 意外發現
Mac Studio 在 671B 模型上的速度(17-18 tokens/s)高於線性外推預測,可能得益於統一記憶體與 MLX 優化 [2]。GAIA 通用模式在中型模型上的高性能(112 tokens/s)具競爭力,但記憶體限制其潛力 [7]。
7. 結論
Mac Studio M3 Ultra 是運行超大模型(如 671B DeepSeek R1)的唯一選擇,速度 17-18 tokens/s;GAIA 混合模式適合輕量應用,通用模式在中型模型上具優勢。未來可探索 GAIA 的多設備分散式推理,以突破記憶體限制。
參考文獻
AMD GAIA GitHub 倉庫,https://github.com/amd/gaia
Getop Forum (2025). "技術分析報告:Apple MLX 執行 DeepSeek R1 671B Q4," https://www.getop.com/forum/da-xing-yu-yan-mo-xing-llm-luo-di-bu-shu-bi-ji/ji-shu-fen-xi-bao-gao-apple-mlx-zhi-xing-deepseek-r1-671b-q4
MLC Team (2023). "Making AMD GPUs Competitive for LLM Inference," https://blog.mlc.ai
MacRumors (2025). "Mac Studio With M3 Ultra Runs Massive DeepSeek R1 AI Model Locally," https://www.macrumors.com/2025/03/17/apples-m3-ultra-runs-deepseek-r1-efficiently。
Newport, B. (2025). "Apple’s M3 Ultra Mac Studio Misses the Mark for LLM Inference," Medium, https://medium.com/@billynewport
MachineZoo (2025). "Running Ollama on AMD iGPU," https://blog.machinezoo.com
MLC Team (2023). "Making AMD GPUs Competitive for LLM Inference," https://blog.mlc.ai
DatabaseMart (2025). "Ollama GPU Benchmark: RTX 4090," https://www.databasemart.com
Creative Strategies (2025). "Mac Studio M3 Ultra AI Workstation Review," https://creativestrategies.com