大模型獨角獸 MiniMax 今(12)日正式於 Hugging Face 開源其全新旗艦模型「MiniMax M3」的原生多模態 MoE 模型權重。該模型總參數達 428B,單 Token 啟動參數僅 23B,並具備高達 1M 的超長上下文處理能力。
(前情提要:MiniMax M3 正式發布:跑分接近 Claude Opus 4.7,但價格只要十分之一)
(背景補充:MiniMax 準備 A 股 IPO 科創板!與智譜同步上市吸 AI 資本)
本文目錄
- 428B 總參數 MoE 架構!單 Token 啟動僅 23B
- 獨創 MSA 技術!1M 超長上下文「解碼提速 15 倍」
- 從 Step Zero 原生多模態,Coding 與 Agent 能力登頂
- 官方部署建議:全面優化 NVIDIA Blackwell 平台
全球 AI 開源社群迎來震撼彈。大模型獨角獸 MiniMax 於台北時間今(12)日正式宣布,其備受期待的全新旗艦模型 ——「MiniMax M3」,已正式以開放權重(Open-Weight)形式上架開源平台 Hugging Face。這份緊跟著 6 月 1 日官方預告而來的技術大禮,力求全面開放原生多模態混合專家模型(MoE)的權重,並將長文本處理成本降至新低,預計將對現有的開源大模型格局造成劇烈洗牌。
428B 總參數 MoE 架構!單 Token 啟動僅 23B
根據 Hugging Face 官方模型庫 顯示,MiniMax M3 採用了極具效率的混合專家(MoE)架構。雖然其總參數高達 428B,但透過 128 個專家網路的精細分工,單個 Token 在運行時僅需啟動其中的 4 個專家,相當於僅啟動約 23B 的參數。模型整體設計為 60 層,這種「大容量、低消耗」的 MoE 架構,完美平衡了模型的知識儲備與推理解碼的速度性能。
此外,為了方便不同硬體配備的開發者與企業進行本地部署,MiniMax 此次除了提供 bfloat16 原始精度主版本外,還同步推出了基於 MXFP8 的量化版本(MiniMax-M3-MXFP8),大幅降低了顯示記憶體(VRAM)的佔用門檻。
獨創 MSA 技術!1M 超長上下文「解碼提速 15 倍」
在長文本處理上,MiniMax M3 將上下文長度強勢擴展至 1M Token(約百萬字級別)。這項技術突破得益於官方獨創的 MSA(MiniMax Sparse Attention,區塊稀疏注意力) 機制。根據官方發布的 MSA 技術論文 顯示,該機制透過「lightning indexer」實現高效的區塊稀疏注意力計算,在 1M 超長上下文的極端場景下,能將預填充(Prefill)階段加速約 9 倍,解碼(Decoding)階段更是瘋狂提速達 15 倍,徹底破解了長上下文 AI 的高昂算力成本瓶頸。
從 Step Zero 原生多模態,Coding 與 Agent 能力登頂
與許多在後訓練(Post-training)階段才強行加入多模態功能的模型不同,MiniMax M3 強調「從預訓練 Step Zero 開始就是原生多模態」。這意味著文本、圖像與影片資料在底層就進行了深度語意融合,使其天生具備優異的長影片理解與複雜桌面操作能力。
在程式碼與 Agent 推理表現上,M3 同樣繳出了前沿的成績單。根據官方先前公布的基準測試,M3 在複雜軟體工程基準 SWE-Bench Pro 上達到 59.0% 的驚人正確率,在 Terminal Bench 2.1 亦高達 66.0%,非常適合處理多步推理、工具調用(Tool calling)等複雜的智慧代理工作流。同時,模型也貼心地支援「思考模式(Thinking)」與「非思考模式(Non-Thinking)」,讓用戶能在深度推理與低延遲場景之間自由切換。
官方部署建議:全面優化 NVIDIA Blackwell 平台
目前 MiniMax M3 已獲得 AI 社群的熱烈反響,開源鏡像也已同步上線 Unsloth 平台。在部署實踐上,官方 Cookbook 推薦開發者優先使用 SGLang、vLLM 或 Transformers(需在程式碼中設定 `trust_remote_code=True`)進行推服。值得注意的是,該模型已針對 NVIDIA Blackwell 等新一代硬體平台進行了深度優化支援,配合 MXFP8 量化版,將幫助全球開發者更低成本地建構次世代的多模態 Agent 應用。
📍相關報導📍
美國議員提案《AI 盜竊法》蒸餾模型的中國廠商恐遭制裁!DeepSeek、MiniMax 列主要打擊目標
中國河南博士生創立 MiniMax,不到OpenAI 1% 資金打造 3000 億市值 AI 平台
為什麼中國 AI 的極致性價比讓矽谷集體感到焦慮?








