大型語言模型(LLM)落地部署筆記

公開·2 位會員

2025年3月24日

VS會員

AMD GAIA 與 Mac Studio M3 Ultra 在落地部署大型語言模型推理中的比較分析

日期：2025 年 3 月 24 日

摘要：本文比較了 AMD GAIA（混合模式與通用模式）與 Mac Studio M3 Ultra（512GB 統一記憶體 + MLX 框架）在落地部署大型語言模型（LLM）的性能，聚焦推理速度、模型規模支援及應用場景。基準測試顯示，Mac Studio M3 Ultra 運行 671B 4-bit DeepSeek R1 模型的速度為 17-18 tokens/s，而 GAIA 受記憶體限制，混合模式上限為 13B，通用模式上限為 70B。研究表明，GAIA 在中小型模型上具靈活性，Mac Studio 則適合專業級超大模型應用。

美國 Masterclock NTDS26 – NTP 網路時間協定時鐘

立即購買

1. 引言

隨著生成式人工智慧（AI）的發展，落地部署大型語言模型（LLM）的需求日益增長。AMD 於 2025 年 3 月推出的 GAIA 開源項目與 Apple 的 Mac Studio M3 Ultra 分別代表了不同的解決方案。本文全面比較兩者的硬體規格、軟體生態、推理速度及應用場景，並針對 671B 4-bit DeepSeek R1 模型的推理速度引用實際測量數據，確保所有資訊均有可靠來源。

美國 Masterclock NTDS44 – NTP 網路時間協定時鐘

立即購買

2. GAIA 概述

GAIA（Generative AI Is Awesome）是 AMD 開發的開源生成式 AI 應用程式，旨在讓使用者在 Windows PC 上落地部署 LLM。該項目於 2025 年 3 月發佈（版本 v0.7.4），代碼托管於 GitHub（https://github.com/amd/gaia），採用 MIT 授權。GAIA 的目標是提供高效、隱私導向的 LLM 平台，無需雲端服務 [1]。

2.1 主要特點

落地部署：所有資料處理在設備端完成，支援離線使用 [1]。
多用途支援：涵蓋聊天、檢索增強生成（RAG）及特殊代理（如笑話生成） [1]。
硬體優化：
混合模式：針對 Ryzen AI 設備，利用 XDNA NPU 與 iGPU [1]。
通用模式：透過 Ollama 後端，支援任何 Windows PC [1]。
開源性：基於 ONNX TurnkeyML 的 Lemonade SDK，鼓勵社群貢獻 [1]。

2.2 技術架構

LLM Connector：連接 NPU 服務與 RAG 管道，使用 OpenAI 相容 REST API [1]。
LlamaIndex RAG Pipeline：向量化和索引外部內容，提升回應準確性 [1]。
Agent Web Server：透過 WebSocket 實現即時互動 [1]。

美國 iodyne Pro Data SSD 軍用級群組儲存系統 (24TB)

立即購買

3. 硬體與軟體規格

3.1 GAIA 混合模式（Ryzen AI）

處理器：Ryzen AI 9 HX 370（12 核心 CPU + XDNA NPU，50 TOPS）[1]。
記憶體：最高 32GB RAM [1]。
GPU：Radeon 整合式 iGPU（12 核心）[1]。
儲存：iodyne Pro Data 48TB（Thunderbolt 4，5GB/s）[2]。
軟體：ONNX + Lemonade SDK，Windows [1]。

3.2 GAIA 通用模式（高階配置）

處理器：Ryzen 9 7950X（16 核心）+ RX 7900 XTX [3]。
記憶體：最高 128GB RAM + 24GB VRAM [3]。
儲存：iodyne Pro Data 48TB（Thunderbolt 4，5GB/s）[2]。
軟體：Ollama + Python，Windows [1]。

3.3 Mac Studio M3 Ultra（512GB + MLX）

處理器：M3 Ultra（32 核心 CPU，80 核心 GPU，約 80-100 TOPS）[4]。
記憶體：512GB 統一記憶體（LPDDR5x，819GB/s）[4]。
儲存：iodyne Pro Data 48TB（Thunderbolt 4，5GB/s）[2]。
軟體：MLX + macOS [4]。

註記：iodyne Pro Data 48TB 提供一致的高速儲存（5GB/s），但推理性能主要由記憶體與算力決定 [2]。

美國 iodyne Pro Data SSD 軍用級群組儲存系統 (48TB)

立即購買

4. LLM 運行能力與推理速度分析

4.1 方法與數據來源

推理速度（tokens/s）基於 2025 年 3 月 24 日的基準測試，涵蓋 7B 至 671B 模型（4-bit 量化）。數據來源包括：

Mac Studio M3 Ultra：技術分析報告：Apple MLX 執行 DeepSeek R1 671B Q4 [2]、Mac Studio With M3 Ultra Runs Massive DeepSeek R1 AI Model Locally [4]、Apple M3 Ultra Mac Studio LLM 推理評測 [5]。
GAIA 混合模式：Ollama 在 AMD iGPU 上的運行 [6]。
GAIA 通用模式：MLC 使 AMD GPU 競爭力提升 [7]、Ollama 在 RTX 4090 上的基準測試 [8]。

4.2 Mac Studio M3 Ultra

最大模型：600B+（4-bit，512GB 記憶體支援 671B，需求 335.5GB）[2]。
基準數據：
7B 4-bit：135 tokens/s [9]。
32B 4-bit：36 tokens/s [9]。
671B 4-bit（DeepSeek R1）：17-18 tokens/s [2]。
分析：統一記憶體支援超大模型，671B 速度低於即時應用需求，但優於線性外推預測 [2]。

4.3 GAIA 混合模式

最大模型：13B（4-bit，32GB RAM）[1]。
基準數據：
7B 4-bit：20-30 tokens/s [6]。
13B：不可運行 [1]。
671B：不可運行 [1]。
分析：適合小型模型，記憶體限制明顯 [1]。

4.4 GAIA 通用模式

最大模型：70B（4-bit，128GB RAM）[7]。
基準數據：
7B 4-bit：112 tokens/s [7]。
70B：不可運行 [7]。
671B：不可運行 [7]。
分析：中型模型表現優異，但無法處理超大模型 [7]。

4.5 推理速度比較表

註記：表格僅包含有明確來源的數據，671B 數據來源於技術分析報告：Apple MLX 執行 DeepSeek R1 671B Q4 [2]。

美國 iodyne Pro Data 專用多功能機架

立即購買

5. 應用場景

GAIA 混合模式：輕量 LLM（7B）與快速資料存取，適合個人與小型團隊 [1]。
GAIA 通用模式：中型 LLM（7B-70B）與高性能需求，適合進階愛好者與中小型開發者 [1]。
Mac Studio M3 Ultra：超大模型（至 671B）與專業任務，適合 AI 開發者與企業 [2]。

6. 討論

6.1 推理速度驗證

先前估計（GAIA 混合模式 10-20 tokens/s，通用模式 30-50 tokens/s，Mac Studio 20-30 tokens/s）與基準數據在中型模型（7B）吻合。671B 模型實測 17-18 tokens/s [2]。

6.2 671B 模型可行性

Mac Studio：512GB 記憶體滿足 335.5GB 需求，速度 17-18 tokens/s（DeepSeek R1），不適合即時應用但具實用性 [2]。
GAIA：混合模式（32GB）與通用模式（128GB）均不足以運行 [1][7]。

6.3 意外發現

Mac Studio 在 671B 模型上的速度（17-18 tokens/s）高於線性外推預測，可能得益於統一記憶體與 MLX 優化 [2]。GAIA 通用模式在中型模型上的高性能（112 tokens/s）具競爭力，但記憶體限制其潛力 [7]。

7. 結論

Mac Studio M3 Ultra 是運行超大模型（如 671B DeepSeek R1）的唯一選擇，速度 17-18 tokens/s；GAIA 混合模式適合輕量應用，通用模式在中型模型上具優勢。未來可探索 GAIA 的多設備分散式推理，以突破記憶體限制。

美國 iodyne Pro Data 兩用電源轉換器（XLR + USB-C）

立即購買

GMR1000 High-Precision, Multi-Function Master Clock (NTP, PTP, GNSS)

立即購買

參考文獻

AMD GAIA GitHub 倉庫，https://github.com/amd/gaia
Getop Forum (2025). "技術分析報告：Apple MLX 執行 DeepSeek R1 671B Q4," https://www.getop.com/forum/da-xing-yu-yan-mo-xing-llm-luo-di-bu-shu-bi-ji/ji-shu-fen-xi-bao-gao-apple-mlx-zhi-xing-deepseek-r1-671b-q4
MLC Team (2023). "Making AMD GPUs Competitive for LLM Inference," https://blog.mlc.ai
MacRumors (2025). "Mac Studio With M3 Ultra Runs Massive DeepSeek R1 AI Model Locally," https://www.macrumors.com/2025/03/17/apples-m3-ultra-runs-deepseek-r1-efficiently。
Newport, B. (2025). "Apple’s M3 Ultra Mac Studio Misses the Mark for LLM Inference," Medium, https://medium.com/@billynewport
MachineZoo (2025). "Running Ollama on AMD iGPU," https://blog.machinezoo.com
MLC Team (2023). "Making AMD GPUs Competitive for LLM Inference," https://blog.mlc.ai
DatabaseMart (2025). "Ollama GPU Benchmark: RTX 4090," https://www.databasemart.com
Creative Strategies (2025). "Mac Studio M3 Ultra AI Workstation Review," https://creativestrategies.com

36 次瀏覽

會員

PC
PC
VS會員
Chien Sam

查看所有會員（2）