引言
本報告評估利用多台 Mac Studio M3 Ultra(512GB)組成 EXO 叢集,進行大型語言模型(LLM)落地部署與微調,特別針對博物館等需要低成本落地部署並進行 LoRA 微調訓練的中小型企業。報告基於 2025 年 3 月 24 日的公開資料與技術趨勢,分析單機與叢集的性能差異,強調多機叢集的必要性,並根據實測資料探討 Thunderbolt 5 P2P 傳輸與 Thunderbolt Bridge 的性能。
技術背景
EXO 運作原理
EXO 是一款由 EXO Labs 開發的開源軟體,專為分散式 AI 計算設計,旨在利用日常設備(如 Mac、iPhone、Android 設備)組成叢集,模擬單一高效 GPU 的功能,用於執行大型語言模型(LLM)等 AI 工作負載。其核心技術包括:
分散式推理(Distributed Inference):EXO 採用「管道並行推理」(Pipeline Parallel Inference)技術,將 LLM 分割為多個分片(shards),每個分片分配給叢集中的不同設備處理。這種方法允許在單一設備記憶體不足時運行更大模型,例如 671B 模型需 1342GB(FP16),可透過分片分散至多台設備。
點對點網路(P2P Network):EXO 使用點對點(peer-to-peer, P2P)網路結構,設備間透過 gRPC 通訊協定進行高效資料交換,預設採用「環形記憶體加權分割」(Ring Memory Weighted Partitioning)策略,根據每台設備的記憶體容量動態分配模型層數,確保負載平衡。
動態設備發現:EXO 支援自動發現同一網路中的設備並納入叢集,無需手動設定,降低部署門檻,適合中小型企業快速建置。
通訊協定與優化:EXO 使用 gRPC 透過 TCP/IP 進行通訊,底層利用 Thunderbolt 5 的 P2P 傳輸,實測速度可達 65.7 Gbps。EXO 支援異構設備(如不同記憶體與運算能力的 Mac 設備),並透過 MLX 引擎優化 Apple Silicon 的運算效能。
模型支援與擴展性:EXO 支援多款開源 LLM(如 LLaMA、Mistral、Qwen、DeepSeek),並可擴展至更大模型(如 671B 模型),透過叢集分片處理記憶體需求。EXO 也支援 LoRA 微調,允許中小型企業在本地進行高效微調訓練。
部署靈活性:EXO 設計為輕量級解決方案,支援本地部署,無需依賴雲端服務,確保資料隱私,特別適合博物館等中小型企業處理敏感資料。
Mac Studio M3 Ultra(512GB)硬體規格
Mac Studio M3 Ultra 規格如下:
晶片:32 核心 CPU(24 效能核心 + 8 效率核心)、80 核心 GPU、32 核心神經引擎。
記憶體:512GB,頻寬 819 GB/s。
Thunderbolt 5:6 個連接埠,雙向 80 Gbps,Bandwidth Boost 模式 120 Gbps。
功耗:滿載 270W,閒置 9W,年耗電 2365.2 kWh,成本 11,352.96 TWD(4.8 TWD/kWh,8760 小時)。
Thunderbolt 5 網路功能與 P2P 傳輸
Thunderbolt 5 總頻寬為 80 Gbps,基於 PCIe 4.0 x4,理論最大約 63 Gbps(16 GT/s 每通道,4 通道,128b/130b 編碼,約 7.877 GB/s)。圖表顯示 Thunderbolt Networking 為 64 Gbps(Thunderbolt 5),與 PCIe 資料傳輸速度一致。iperf3 實測資料顯示 P2P 傳輸速度為 65.7 Gbps,證實 Thunderbolt 5 的 P2P 網路傳輸可達 64 Gbps,接近理論值。
EXO 使用 gRPC 透過 TCP/IP 進行通訊,底層利用 Thunderbolt 5 的 P2P 傳輸,實測速度可達 65.7 Gbps。影片 https://youtu.be/GBR6pHZ68Ho 顯示,Thunderbolt 4 的 Thunderbolt Bridge 實測速度為 40 Gbps,Thunderbolt 5 表現更優,與實測資料一致。

Thunderbolt Bridge 技術
Thunderbolt Bridge 是 macOS 內建功能,允許兩台 Mac 設備透過 Thunderbolt 線材直接建立高速點對點網路連線,無需額外網路設備(如交換器或路由器)。其特色包括:
高速傳輸:Thunderbolt Bridge 利用 Thunderbolt 的 PCIe 通道進行資料傳輸,Thunderbolt 4 實測速度可達 40 Gbps(雙向),Thunderbolt 5 實測速度可達 65.7 Gbps,接近 PCIe 4.0 x4 理論值 63 Gbps。
低延遲:由於直接使用 PCIe 通道,Thunderbolt Bridge 提供低延遲通訊,適合 EXO 叢集的高頻資料交換需求。
菊鏈(Daisy Chain)支援:Thunderbolt Bridge 支援菊鏈連線,允許多台設備串聯,影片顯示最多可串聯 6 台設備,適合中小型企業建置小型叢集。
自動設定:macOS 內建 Thunderbolt Bridge 功能,啟用後自動分配 IP 位址(如 192.168.x.x),無需手動設定網路參數,降低部署難度。
多設備管理:Thunderbolt Bridge 支援多設備連線,影片中 5 台 M4 Mac Mini 透過菊鏈連線,實現高效通訊,適合 EXO 叢集的分散式推理。
與 EXO 的整合:EXO 的 gRPC 通訊可直接利用 Thunderbolt Bridge 提供的網路介面,實現高效 P2P 傳輸,實測速度 65.7 Gbps 確保叢集內設備間的高速資料交換。
儲存解決方案:Iodyne Pro Data 48TB
Iodyne Pro Data 48TB 為軍用級儲存設備,配備 12 個 NVMe SSD,支援 RAID-6,讀取速度 5 GB/s,寫入速度 2 GB/s,8 個 Thunderbolt 連接埠。與 Mac Studio M3 Ultra 搭配,可提供高速儲存,適合博物館等需要低成本落地部署進行 LoRA 微調訓練的中小型企業。其特色包括:
Transactional RAID-6 和 RAID-0:提供資料保護與高效能選擇,RAID-6 確保雙重硬碟故障仍可恢復資料,RAID-0 提升效能。
資料校驗(Data Checksum)和自癒(Self-Healing):自動檢測與修復資料錯誤,確保資料完整性。
XTS-AES-256 軍用級加密與硬體安全加密(Hardware Secure Enclave):所有資料以軍用級加密保護,加密金鑰儲存於硬體安全模組,防止未授權存取。
NVMe Thunderbolt 多路徑(Multipathing),最多 4 倍路徑:支援多路徑傳輸,結合多個 Thunderbolt 連接埠提升頻寬,實測可達 5 GB/s。
多使用者連接,最多可連接 4 台電腦:允許 4 台電腦同時連線,適合團隊協作。
在連接的 macOS 電腦之間進行儲存交接(Storage Handoff):一鍵交接儲存容器,無需重新接線,提升工作流程效率。
動態儲存容器(Dynamic Container),每個設備最多可容納 15 個儲存容器:支援最多 15 個動態容器,方便資料分隔與管理。
每個儲存容器 RAID 等級具有自我調整串聯(Striping)及分配資料與同位元檢查碼(Parity):動態調整資料分佈與同位元檢查,提升效能與可靠性。
自動 SSD 故障管理(Fault Management)及 RAID Resilvering:自動檢測 SSD 故障並重建資料,確保系統穩定。
固態硬碟模組專為方便使用者自行維修而設計:支援使用者自行更換 SSD 模組,延長設備壽命,降低維護成本。
性能分析
單機微調與推理能力
記憶體需求:
7B 模型:權重 14GB,訓練約 42-56GB。
13B 模型:權重 26GB,訓練約 78-104GB。
70B 模型:權重 140GB,訓練約 420GB(LoRA 可降至 200-300GB)。
671B 模型:權重約 1342GB(FP16),單機無法處理,需量化後推理。
基準測試:
LLaMA 3.2 3B:TPS 60-70。
Nemotron 70B:TPS 15-20。
DeepSeek R1 671B Q4:僅能推理,記憶體需求約 335.5GB(4-bit),TPS 低,顯示單機限制。
微調性能:
7B:MLX 微調,少於 10 分鐘。
70B:LoRA 微調可行,200-300GB,適合單機。
EXO 叢集性能
多機優勢:
分散式訓練:加速大資料集微調,特別是 70B 以上模型。
高吞吐量推理:多使用者場景,671B 模型需叢集分片處理。
基準資料(兩台 M3 Ultra):
Nemotron 70B:TPS 18-22。
LLaMA 3.1 405B:記憶體 1024GB,TPS 10-15。
通訊效率:
Thunderbolt 5 P2P 傳輸實測速度 65.7 Gbps,接近 PCIe 4.0 x4 理論值 63 Gbps。
EXO 使用 gRPC 透過 TCP/IP,底層利用 Thunderbolt 5 P2P 傳輸,實測速度可達 65.7 Gbps。
通訊消耗主要來自順序推理(autoregressive)與 gRPC 協定消耗。
可行性評估
博物館等需要低成本落地部署並進行 LoRA 微調訓練的中小型企業應用需求
微調挑戰:單機可微調 7B 或 13B,但中小型企業如博物館的資料集可能過大,需快速迭代,叢集加速訓練。
推理需求:671B 模型如 DeepSeek R1 Q4 僅能推理,顯示單機不足,需 EXO 叢集分片處理。
成本與擴展:多台 M3 Ultra 提供冗餘與可擴展性,適合中小型企業長期需求。
叢集配置建議
硬體需求:至少兩台 Mac Studio M3 Ultra(512GB),總記憶體 1024GB,支援 405B 模型推理。
儲存需求:搭配 Iodyne Pro Data 48TB,讀取速度 5 GB/s,寫入速度 2 GB/s,滿足大規模資料處理需求,適合中小型企業進行 LoRA 微調訓練。
通訊優化:使用 active Thunderbolt 線材,支援長距離(如 50 公尺),提升叢集效率。
EXO 利用 Thunderbolt 5 P2P 傳輸,實測速度可達 65.7 Gbps,需優化 gRPC 協定以減少消耗。
電力成本:每台年成本 11,352.96 TWD,兩台約 22,705.92 TWD。
優勢與限制
優勢
高性能:叢集支援大模型微調與高吞吐量推理。
通訊效率:Thunderbolt 5 P2P 傳輸實測 65.7 Gbps,大幅提升效率。
儲存效能:Iodyne Pro Data 48TB 提供高速存取與軍用級加密,適合大資料處理與安全需求。
成本效益:相較雲端服務,電力成本低,適合中小型企業落地部署。
限制
通訊消耗:EXO 的順序推理與 gRPC 協定消耗影響性能,需優化軟體設計。
軟體成熟度:EXO 為實驗性,穩定性待驗證。
結論
單台 Mac Studio M3 Ultra 可微調 7B 或 13B 模型,但博物館等中小型企業需快速迭代與高吞吐量,建議使用 EXO 叢集,多台 M3 Ultra 提供足夠資源,特別是處理 671B 模型的推理需求。搭配 Iodyne Pro Data 48TB 滿足儲存需求,提供高速存取與軍用級加密,Thunderbolt 5 P2P 傳輸實測速度可達 65.7 Gbps,EXO 可充分利用此速度,未來優化 gRPC 協定將進一步提升效率,適合低成本落地部署與 LoRA 微調訓練。
引用資料
Medium: Apple’s M3 Ultra Mac Studio Misses the Mark for LLM Inference
Apeatling: A simple guide to local LLM fine-tuning on a Mac with MLX
Building an AI Cluster at Home: The EXO Labs Approach | Medium
GETOP: 用 Apple M3 Ultra 與 Iodyne Pro Data 48TB 打造超低成本 AI LLM 解決方案