top of page

大型語言模型(LLM)落地部署筆記

公開·1 位會員

AMD GAIA 與 Mac Studio M3 Ultra 在落地部署大型語言模型推理中的比較分析

日期:2025 年 3 月 24 日


摘要:本文比較了 AMD GAIA(混合模式與通用模式)與 Mac Studio M3 Ultra(512GB 統一記憶體 + MLX 框架)在落地部署大型語言模型(LLM)的性能,聚焦推理速度、模型規模支援及應用場景。基準測試顯示,Mac Studio M3 Ultra 運行 671B 4-bit DeepSeek R1 模型的速度為 17-18 tokens/s,而 GAIA 受記憶體限制,混合模式上限為 13B,通用模式上限為 70B。研究表明,GAIA 在中小型模型上具靈活性,Mac Studio 則適合專業級超大模型應用。




1. 引言

隨著生成式人工智慧(AI)的發展,落地部署大型語言模型(LLM)的需求日益增長。AMD 於 2025 年 3 月推出的 GAIA 開源項目與 Apple 的 Mac Studio M3 Ultra 分別代表了不同的解決方案。本文全面比較兩者的硬體規格、軟體生態、推理速度及應用場景,並針對 671B 4-bit DeepSeek R1 模型的推理速度引用實際測量數據,確保所有資訊均有可靠來源。




2. GAIA 概述

GAIA(Generative AI Is Awesome)是 AMD 開發的開源生成式 AI 應用程式,旨在讓使用者在 Windows PC 上落地部署 LLM。該項目於 2025 年 3 月發佈(版本 v0.7.4),代碼托管於 GitHub(https://github.com/amd/gaia),採用 MIT 授權。GAIA 的目標是提供高效、隱私導向的 LLM 平台,無需雲端服務 [1]。


2.1 主要特點

  • 落地部署:所有資料處理在設備端完成,支援離線使用 [1]。

  • 多用途支援:涵蓋聊天、檢索增強生成(RAG)及特殊代理(如笑話生成) [1]。

  • 硬體優化:

  • 混合模式:針對 Ryzen AI 設備,利用 XDNA NPU 與 iGPU [1]。

  • 通用模式:透過 Ollama 後端,支援任何 Windows PC [1]。

  • 開源性:基於 ONNX TurnkeyML 的 Lemonade SDK,鼓勵社群貢獻 [1]。


2.2 技術架構

  • LLM Connector:連接 NPU 服務與 RAG 管道,使用 OpenAI 相容 REST API [1]。

  • LlamaIndex RAG Pipeline:向量化和索引外部內容,提升回應準確性 [1]。

  • Agent Web Server:透過 WebSocket 實現即時互動 [1]。




3. 硬體與軟體規格


3.1 GAIA 混合模式(Ryzen AI)

  • 處理器:Ryzen AI 9 HX 370(12 核心 CPU + XDNA NPU,50 TOPS)[1]。

  • 記憶體:最高 32GB RAM [1]。

  • GPU:Radeon 整合式 iGPU(12 核心)[1]。

  • 儲存:iodyne Pro Data 48TB(Thunderbolt 4,5GB/s)[2]。

  • 軟體:ONNX + Lemonade SDK,Windows [1]。


3.2 GAIA 通用模式(高階配置)

  • 處理器:Ryzen 9 7950X(16 核心)+ RX 7900 XTX [3]。

  • 記憶體:最高 128GB RAM + 24GB VRAM [3]。

  • 儲存:iodyne Pro Data 48TB(Thunderbolt 4,5GB/s)[2]。

  • 軟體:Ollama + Python,Windows [1]。


3.3 Mac Studio M3 Ultra(512GB + MLX)

  • 處理器:M3 Ultra(32 核心 CPU,80 核心 GPU,約 80-100 TOPS)[4]。

  • 記憶體:512GB 統一記憶體(LPDDR5x,819GB/s)[4]。

  • 儲存:iodyne Pro Data 48TB(Thunderbolt 4,5GB/s)[2]。

  • 軟體:MLX + macOS [4]。

註記:iodyne Pro Data 48TB 提供一致的高速儲存(5GB/s),但推理性能主要由記憶體與算力決定 [2]。




4. LLM 運行能力與推理速度分析


4.1 方法與數據來源

推理速度(tokens/s)基於 2025 年 3 月 24 日的基準測試,涵蓋 7B 至 671B 模型(4-bit 量化)。數據來源包括:


4.2 Mac Studio M3 Ultra

  • 最大模型:600B+(4-bit,512GB 記憶體支援 671B,需求 335.5GB)[2]。

  • 基準數據:

  • 7B 4-bit:135 tokens/s [9]。

  • 32B 4-bit:36 tokens/s [9]。

  • 671B 4-bit(DeepSeek R1):17-18 tokens/s [2]。

  • 分析:統一記憶體支援超大模型,671B 速度低於即時應用需求,但優於線性外推預測 [2]。


4.3 GAIA 混合模式

  • 最大模型:13B(4-bit,32GB RAM)[1]。

  • 基準數據:

  • 7B 4-bit:20-30 tokens/s [6]。

  • 13B:不可運行 [1]。

  • 671B:不可運行 [1]。

  • 分析:適合小型模型,記憶體限制明顯 [1]。


4.4 GAIA 通用模式

  • 最大模型:70B(4-bit,128GB RAM)[7]。

  • 基準數據:

  • 7B 4-bit:112 tokens/s [7]。

  • 70B:不可運行 [7]。

  • 671B:不可運行 [7]。

  • 分析:中型模型表現優異,但無法處理超大模型 [7]。


4.5 推理速度比較表



註記:表格僅包含有明確來源的數據,671B 數據來源於 技術分析報告:Apple MLX 執行 DeepSeek R1 671B Q4 [2]。




5. 應用場景

  • GAIA 混合模式:輕量 LLM(7B)與快速資料存取,適合個人與小型團隊 [1]。

  • GAIA 通用模式:中型 LLM(7B-70B)與高性能需求,適合進階愛好者與中小型開發者 [1]。

  • Mac Studio M3 Ultra:超大模型(至 671B)與專業任務,適合 AI 開發者與企業 [2]。



6. 討論


6.1 推理速度驗證

先前估計(GAIA 混合模式 10-20 tokens/s,通用模式 30-50 tokens/s,Mac Studio 20-30 tokens/s)與基準數據在中型模型(7B)吻合。671B 模型實測 17-18 tokens/s [2]。


6.2 671B 模型可行性

  • Mac Studio:512GB 記憶體滿足 335.5GB 需求,速度 17-18 tokens/s(DeepSeek R1),不適合即時應用但具實用性 [2]。

  • GAIA:混合模式(32GB)與通用模式(128GB)均不足以運行 [1][7]。


6.3 意外發現

Mac Studio 在 671B 模型上的速度(17-18 tokens/s)高於線性外推預測,可能得益於統一記憶體與 MLX 優化 [2]。GAIA 通用模式在中型模型上的高性能(112 tokens/s)具競爭力,但記憶體限制其潛力 [7]。



7. 結論

Mac Studio M3 Ultra 是運行超大模型(如 671B DeepSeek R1)的唯一選擇,速度 17-18 tokens/s;GAIA 混合模式適合輕量應用,通用模式在中型模型上具優勢。未來可探索 GAIA 的多設備分散式推理,以突破記憶體限制。





參考文獻

  1. AMD GAIA GitHub 倉庫,https://github.com/amd/gaia

  2. Getop Forum (2025). "技術分析報告:Apple MLX 執行 DeepSeek R1 671B Q4," https://www.getop.com/forum/da-xing-yu-yan-mo-xing-llm-luo-di-bu-shu-bi-ji/ji-shu-fen-xi-bao-gao-apple-mlx-zhi-xing-deepseek-r1-671b-q4

  3. MLC Team (2023). "Making AMD GPUs Competitive for LLM Inference," https://blog.mlc.ai

  4. MacRumors (2025). "Mac Studio With M3 Ultra Runs Massive DeepSeek R1 AI Model Locally," https://www.macrumors.com/2025/03/17/apples-m3-ultra-runs-deepseek-r1-efficiently。

  5. Newport, B. (2025). "Apple’s M3 Ultra Mac Studio Misses the Mark for LLM Inference," Medium, https://medium.com/@billynewport

  6. MachineZoo (2025). "Running Ollama on AMD iGPU," https://blog.machinezoo.com

  7. MLC Team (2023). "Making AMD GPUs Competitive for LLM Inference," https://blog.mlc.ai

  8. DatabaseMart (2025). "Ollama GPU Benchmark: RTX 4090," https://www.databasemart.com

  9. Creative Strategies (2025). "Mac Studio M3 Ultra AI Workstation Review," https://creativestrategies.com

29 次瀏覽

關於

AI 人工智慧 大型語言模型(LLM)落地部署評估與應用可能性紀錄

會員

訂閱

02 7720 9899

©2019 by GETOP Systems Inc.
堅達資訊實業股份有限公司

bottom of page