top of page

大型語言模型(LLM)落地部署筆記

公開·1 位會員

完全開源 LLM 落地部署排行榜報告

背景與目標

本報告評估完全開源大語言模型(LLM)在企業內部落地部署的可行性,針對 Mac Studio M3 Ultra(512GB 統一記憶體) 硬體,利用 Apple MLX 框架 進行高效推理。排行榜以性能為主要排序依據,滿足以下定義:


  • 免費使用:模型權重和資源免費提供。

  • 開放修改:提供權重和代碼,允許企業內部修改。

  • 商業用途:允許企業內部自用。

  • MLX 支援:能在 MLX 框架上運行。


硬體基準:Mac Studio M3 Ultra


規格

  • 晶片:M3 Ultra

  • CPU:32 核(24 性能核 + 8 效率核)

  • GPU:80 核

  • 記憶體:512GB 統一記憶體

  • Neural Engine:32 核

  • 記憶體帶寬:819GB/s

  • 儲存:1TB SSD +48TB Iodyne Pro Data (建議搭配具有Thunderbolt 交換技術的Iodyne Pro Data 48TB)

  • 連接埠:

  • 前置:2 個 Thunderbolt 5 埠(最高 120Gbps),1 個 SDXC (UHS-II) 卡槽

  • 後置:4 個 Thunderbolt 5 埠,2 個 USB-A 埠(5Gbps),1 個 HDMI 2.1 埠,1 個 10Gb 乙太網埠,1 個 3.5mm 耳機孔

  • 無線:Wi-Fi 6E,藍牙 5.3



排行榜(按性能排序)


  1. DeepSeek R1(671B MoE,4-bit)

  • 開發者:DeepSeek

  • 性能:MMLU 90.8,MMLU-Pro 84.0,MATH 90.2,Arena-Hard 92.3% 勝率

  • 參數規模:671B(MoE,激活 37B/Token)

  • MLX 支援:社群支援(mlx-community/DeepSeek-R1-4bit)

  • 授權許可:MIT

  1. LLaMA 3.3(70B

  • 開發者:Meta AI

  • 性能:MMLU 82.0,HumanEval 88.4

  • 參數規模:70B

  • MLX 支援:社群支援(mlx-community/Llama-3.3-70B-Instruct)

  • 授權許可:自定義(允許內部使用)

  1. Qwen2.5(32B)

  • 開發者:Alibaba Cloud

  • 性能:MMLU 82.0,HumanEval 85.0,MATH 75.0

  • 參數規模:32B

  • MLX 支援:原生支援(qwen/Qwen2.5-32B-Instruct)

  • 授權許可:Apache 2.0

  1. DeepSeek-Coder(33B)

  • 開發者:DeepSeek

  • 性能:HumanEval 75.3

  • 參數規模:33B

  • MLX 支援:社群支援(mlx-community/deepseek-coder-1.3b-base-mlx)

  • 授權許可:MIT

  1. Mixtral 8x7B

  • 開發者:Mistral AI

  • 性能:MMLU 70+,HumanEval 70+

  • 參數規模:56B(MoE,激活 14B)

  • MLX 支援:原生支援(mistralai/Mixtral-8x7B-Instruct-v0.1)

  • 授權許可:Apache 2.0

  1. Hermes-2-Pro (LLaMA 3 8B)

  • 開發者:Nous Research

  • 性能:MMLU 70+

  • 參數規模:8B

  • MLX 支援:社群支援(mlx-community/Hermes-2-Pro-Llama-3-8B)

  • 授權許可:Apache 2.0

  1. TinyLlama 1.1B Chat v1.0

  • 開發者:TinyLlama 社群

  • 性能:MMLU 45-50

  • 參數規模:1.1B

  • MLX 支援:原生支援(TinyLlama/TinyLlama-1.1B-Chat-v1.0)

  • 授權許可:Apache 2.0


比較表

完全開源 LLM 落地部署排行榜報告
完全開源 LLM 落地部署排行榜報告

註釋

  • HE:HumanEval(編碼基準)

  • AH:Arena-Hard(勝率)

  • 記憶體需求:基於 4-bit 量化理論值(參數 * 0.5 bytes)。







33 次瀏覽

關於

AI 人工智慧 大型語言模型(LLM)落地部署評估與應用可能性紀錄

會員

訂閱

02 7720 9899

©2019 by GETOP Systems Inc.
堅達資訊實業股份有限公司

bottom of page