技術分析報告：以多台 Mac Studio M3 Ultra（512GB）進行 EXO 叢集的 LLM 落地部署與微調可行性評估

引言

本報告評估利用多台 Mac Studio M3 Ultra（512GB）組成 EXO 叢集，進行大型語言模型（LLM）落地部署與微調，特別針對博物館等需要低成本落地部署並進行 LoRA 微調訓練的中小型企業。報告基於 2025 年 3 月 24 日的公開資料與技術趨勢，分析單機與叢集的性能差異，強調多機叢集的必要性，並根據實測資料探討 Thunderbolt 5 P2P 傳輸與 Thunderbolt Bridge 的性能。

美國 Krane AMG 750 專業攝影全地形多用途工作車

立即購買

技術背景

EXO 運作原理

EXO 是一款由 EXO Labs 開發的開源軟體，專為分散式 AI 計算設計，旨在利用日常設備（如 Mac、iPhone、Android 設備）組成叢集，模擬單一高效 GPU 的功能，用於執行大型語言模型（LLM）等 AI 工作負載。其核心技術包括：

分散式推理（Distributed Inference）：EXO 採用「管道並行推理」（Pipeline Parallel Inference）技術，將 LLM 分割為多個分片（shards），每個分片分配給叢集中的不同設備處理。這種方法允許在單一設備記憶體不足時運行更大模型，例如 671B 模型需 1342GB（FP16），可透過分片分散至多台設備。
點對點網路（P2P Network）：EXO 使用點對點（peer-to-peer, P2P）網路結構，設備間透過 gRPC 通訊協定進行高效資料交換，預設採用「環形記憶體加權分割」（Ring Memory Weighted Partitioning）策略，根據每台設備的記憶體容量動態分配模型層數，確保負載平衡。
動態設備發現：EXO 支援自動發現同一網路中的設備並納入叢集，無需手動設定，降低部署門檻，適合中小型企業快速建置。
通訊協定與優化：EXO 使用 gRPC 透過 TCP/IP 進行通訊，底層利用 Thunderbolt 5 的 P2P 傳輸，實測速度可達 65.7 Gbps。EXO 支援異構設備（如不同記憶體與運算能力的 Mac 設備），並透過 MLX 引擎優化 Apple Silicon 的運算效能。
模型支援與擴展性：EXO 支援多款開源 LLM（如 LLaMA、Mistral、Qwen、DeepSeek），並可擴展至更大模型（如 671B 模型），透過叢集分片處理記憶體需求。EXO 也支援 LoRA 微調，允許中小型企業在本地進行高效微調訓練。
部署靈活性：EXO 設計為輕量級解決方案，支援本地部署，無需依賴雲端服務，確保資料隱私，特別適合博物館等中小型企業處理敏感資料。

章魚哥 TIMEBAR 多功能時碼顯示/產生器場記板套裝組

立即購買

Mac Studio M3 Ultra（512GB）硬體規格

Mac Studio M3 Ultra 規格如下：

晶片：32 核心 CPU（24 效能核心 + 8 效率核心）、80 核心 GPU、32 核心神經引擎。
記憶體：512GB，頻寬 819 GB/s。
Thunderbolt 5：6 個連接埠，雙向 80 Gbps，Bandwidth Boost 模式 120 Gbps。
功耗：滿載 270W，閒置 9W，年耗電 2365.2 kWh，成本 11,352.96 TWD（4.8 TWD/kWh，8760 小時）。

英國 Glensound Divine 智慧型網路音訊監聽器(黑色)

立即購買

Thunderbolt 5 網路功能與 P2P 傳輸

Thunderbolt 5 總頻寬為 80 Gbps，基於 PCIe 4.0 x4，理論最大約 63 Gbps（16 GT/s 每通道，4 通道，128b/130b 編碼，約 7.877 GB/s）。圖表顯示 Thunderbolt Networking 為 64 Gbps（Thunderbolt 5），與 PCIe 資料傳輸速度一致。iperf3 實測資料顯示 P2P 傳輸速度為 65.7 Gbps，證實 Thunderbolt 5 的 P2P 網路傳輸可達 64 Gbps，接近理論值。

EXO 使用 gRPC 透過 TCP/IP 進行通訊，底層利用 Thunderbolt 5 的 P2P 傳輸，實測速度可達 65.7 Gbps。影片 https://youtu.be/GBR6pHZ68Ho 顯示，Thunderbolt 4 的 Thunderbolt Bridge 實測速度為 40 Gbps，Thunderbolt 5 表現更優，與實測資料一致。

美國 iodyne PRO MINI – 軍規級加密的智慧隨身碟（預購）

立即購買

Thunderbolt Bridge 技術

Thunderbolt Bridge 是 macOS 內建功能，允許兩台 Mac 設備透過 Thunderbolt 線材直接建立高速點對點網路連線，無需額外網路設備（如交換器或路由器）。其特色包括：

高速傳輸：Thunderbolt Bridge 利用 Thunderbolt 的 PCIe 通道進行資料傳輸，Thunderbolt 4 實測速度可達 40 Gbps（雙向），Thunderbolt 5 實測速度可達 65.7 Gbps，接近 PCIe 4.0 x4 理論值 63 Gbps。
低延遲：由於直接使用 PCIe 通道，Thunderbolt Bridge 提供低延遲通訊，適合 EXO 叢集的高頻資料交換需求。
菊鏈（Daisy Chain）支援：Thunderbolt Bridge 支援菊鏈連線，允許多台設備串聯，影片顯示最多可串聯 6 台設備，適合中小型企業建置小型叢集。
自動設定：macOS 內建 Thunderbolt Bridge 功能，啟用後自動分配 IP 位址（如 192.168.x.x），無需手動設定網路參數，降低部署難度。
多設備管理：Thunderbolt Bridge 支援多設備連線，影片中 5 台 M4 Mac Mini 透過菊鏈連線，實現高效通訊，適合 EXO 叢集的分散式推理。
與 EXO 的整合：EXO 的 gRPC 通訊可直接利用 Thunderbolt Bridge 提供的網路介面，實現高效 P2P 傳輸，實測速度 65.7 Gbps 確保叢集內設備間的高速資料交換。

美國 iodyne Pro Data SSD 軍用級群組儲存系統 (48TB)

立即購買

儲存解決方案：Iodyne Pro Data 48TB

Iodyne Pro Data 48TB 為軍用級儲存設備，配備 12 個 NVMe SSD，支援 RAID-6，讀取速度 5 GB/s，寫入速度 2 GB/s，8 個 Thunderbolt 連接埠。與 Mac Studio M3 Ultra 搭配，可提供高速儲存，適合博物館等需要低成本落地部署進行 LoRA 微調訓練的中小型企業。其特色包括：

Transactional RAID-6 和 RAID-0：提供資料保護與高效能選擇，RAID-6 確保雙重硬碟故障仍可恢復資料，RAID-0 提升效能。
資料校驗（Data Checksum）和自癒（Self-Healing）：自動檢測與修復資料錯誤，確保資料完整性。
XTS-AES-256 軍用級加密與硬體安全加密（Hardware Secure Enclave）：所有資料以軍用級加密保護，加密金鑰儲存於硬體安全模組，防止未授權存取。
NVMe Thunderbolt 多路徑（Multipathing），最多 4 倍路徑：支援多路徑傳輸，結合多個 Thunderbolt 連接埠提升頻寬，實測可達 5 GB/s。
多使用者連接，最多可連接 4 台電腦：允許 4 台電腦同時連線，適合團隊協作。
在連接的 macOS 電腦之間進行儲存交接（Storage Handoff）：一鍵交接儲存容器，無需重新接線，提升工作流程效率。
動態儲存容器（Dynamic Container），每個設備最多可容納 15 個儲存容器：支援最多 15 個動態容器，方便資料分隔與管理。
每個儲存容器 RAID 等級具有自我調整串聯（Striping）及分配資料與同位元檢查碼（Parity）：動態調整資料分佈與同位元檢查，提升效能與可靠性。
自動 SSD 故障管理（Fault Management）及 RAID Resilvering：自動檢測 SSD 故障並重建資料，確保系統穩定。
固態硬碟模組專為方便使用者自行維修而設計：支援使用者自行更換 SSD 模組，延長設備壽命，降低維護成本。

美國 iodyne Pro Data SSD 軍用級群組儲存系統 (12TB)

立即購買

美國 iodyne Pro Data SSD 軍用級群組儲存系統 (24TB)

立即購買

性能分析

單機微調與推理能力

記憶體需求：
- 7B 模型：權重 14GB，訓練約 42-56GB。
- 13B 模型：權重 26GB，訓練約 78-104GB。
- 70B 模型：權重 140GB，訓練約 420GB（LoRA 可降至 200-300GB）。
- 671B 模型：權重約 1342GB（FP16），單機無法處理，需量化後推理。
基準測試：
- LLaMA 3.2 3B：TPS 60-70。
- Nemotron 70B：TPS 15-20。
- DeepSeek R1 671B Q4：僅能推理，記憶體需求約 335.5GB（4-bit），TPS 低，顯示單機限制。
微調性能：
- 7B：MLX 微調，少於 10 分鐘。
- 70B：LoRA 微調可行，200-300GB，適合單機。

EXO 叢集性能

多機優勢：
- 分散式訓練：加速大資料集微調，特別是 70B 以上模型。
- 高吞吐量推理：多使用者場景，671B 模型需叢集分片處理。
基準資料（兩台 M3 Ultra）：
- Nemotron 70B：TPS 18-22。
- LLaMA 3.1 405B：記憶體 1024GB，TPS 10-15。
通訊效率：
- Thunderbolt 5 P2P 傳輸實測速度 65.7 Gbps，接近 PCIe 4.0 x4 理論值 63 Gbps。
- EXO 使用 gRPC 透過 TCP/IP，底層利用 Thunderbolt 5 P2P 傳輸，實測速度可達 65.7 Gbps。
- 通訊消耗主要來自順序推理（autoregressive）與 gRPC 協定消耗。

美國 iodyne Pro Data 專用多功能機架

立即購買

可行性評估

博物館等需要低成本落地部署並進行 LoRA 微調訓練的中小型企業應用需求

微調挑戰：單機可微調 7B 或 13B，但中小型企業如博物館的資料集可能過大，需快速迭代，叢集加速訓練。
推理需求：671B 模型如 DeepSeek R1 Q4 僅能推理，顯示單機不足，需 EXO 叢集分片處理。
成本與擴展：多台 M3 Ultra 提供冗餘與可擴展性，適合中小型企業長期需求。

叢集配置建議

硬體需求：至少兩台 Mac Studio M3 Ultra（512GB），總記憶體 1024GB，支援 405B 模型推理。
儲存需求：搭配 Iodyne Pro Data 48TB，讀取速度 5 GB/s，寫入速度 2 GB/s，滿足大規模資料處理需求，適合中小型企業進行 LoRA 微調訓練。
通訊優化：使用 active Thunderbolt 線材，支援長距離（如 50 公尺），提升叢集效率。
EXO 利用 Thunderbolt 5 P2P 傳輸，實測速度可達 65.7 Gbps，需優化 gRPC 協定以減少消耗。
電力成本：每台年成本 11,352.96 TWD，兩台約 22,705.92 TWD。

優勢與限制

優勢

高性能：叢集支援大模型微調與高吞吐量推理。
通訊效率：Thunderbolt 5 P2P 傳輸實測 65.7 Gbps，大幅提升效率。
儲存效能：Iodyne Pro Data 48TB 提供高速存取與軍用級加密，適合大資料處理與安全需求。
成本效益：相較雲端服務，電力成本低，適合中小型企業落地部署。

限制

通訊消耗：EXO 的順序推理與 gRPC 協定消耗影響性能，需優化軟體設計。
軟體成熟度：EXO 為實驗性，穩定性待驗證。

iodyne Pro Data SSD 軍用級群組儲存系統-備用SSD模組

立即購買

結論

單台 Mac Studio M3 Ultra 可微調 7B 或 13B 模型，但博物館等中小型企業需快速迭代與高吞吐量，建議使用 EXO 叢集，多台 M3 Ultra 提供足夠資源，特別是處理 671B 模型的推理需求。搭配 Iodyne Pro Data 48TB 滿足儲存需求，提供高速存取與軍用級加密，Thunderbolt 5 P2P 傳輸實測速度可達 65.7 Gbps，EXO 可充分利用此速度，未來優化 gRPC 協定將進一步提升效率，適合低成本落地部署與 LoRA 微調訓練。

英國 Glensound Beatrice P2 – Dante 網路雙通道桌上型電話

立即購買

引用資料

美國 Masterclock NTDS44 – NTP 網路時間協定時鐘

立即購買

GMR1000 High-Precision, Multi-Function Master Clock (NTP, PTP, GNSS)

立即購買