MiniMax M3 正式開源：428B 原生多模態 MoE、1M 超長上下文

大模型獨角獸 MiniMax 今（12）日正式於 Hugging Face 開源其全新旗艦模型「MiniMax M3」的原生多模態 MoE 模型權重。該模型總參數達 428B，單 Token 啟動參數僅 23B，並具備高達 1M 的超長上下文處理能力。
（前情提要：MiniMax M3 正式發布：跑分接近 Claude Opus 4.7，但價格只要十分之一）
（背景補充：MiniMax 準備 A 股 IPO 科創板！與智譜同步上市吸 AI 資本）

本文目錄

Toggle

428B 總參數 MoE 架構！單 Token 啟動僅 23B
獨創 MSA 技術！1M 超長上下文「解碼提速 15 倍」
從 Step Zero 原生多模態，Coding 與 Agent 能力登頂
官方部署建議：全面優化 NVIDIA Blackwell 平台

全球 AI 開源社群迎來震撼彈。大模型獨角獸 MiniMax 於台北時間今（12）日正式宣布，其備受期待的全新旗艦模型 ——「MiniMax M3」，已正式以開放權重（Open-Weight）形式上架開源平台 Hugging Face。這份緊跟著 6 月 1 日官方預告而來的技術大禮，力求全面開放原生多模態混合專家模型（MoE）的權重，並將長文本處理成本降至新低，預計將對現有的開源大模型格局造成劇烈洗牌。

428B 總參數 MoE 架構！單 Token 啟動僅 23B

根據 Hugging Face 官方模型庫顯示，MiniMax M3 採用了極具效率的混合專家（MoE）架構。雖然其總參數高達 428B，但透過 128 個專家網路的精細分工，單個 Token 在運行時僅需啟動其中的 4 個專家，相當於僅啟動約 23B 的參數。模型整體設計為 60 層，這種「大容量、低消耗」的 MoE 架構，完美平衡了模型的知識儲備與推理解碼的速度性能。

此外，為了方便不同硬體配備的開發者與企業進行本地部署，MiniMax 此次除了提供 bfloat16 原始精度主版本外，還同步推出了基於 MXFP8 的量化版本（MiniMax-M3-MXFP8），大幅降低了顯示記憶體（VRAM）的佔用門檻。

獨創 MSA 技術！1M 超長上下文「解碼提速 15 倍」

在長文本處理上，MiniMax M3 將上下文長度強勢擴展至 1M Token（約百萬字級別）。這項技術突破得益於官方獨創的 MSA（MiniMax Sparse Attention，區塊稀疏注意力） 機制。根據官方發布的 MSA 技術論文顯示，該機制透過「lightning indexer」實現高效的區塊稀疏注意力計算，在 1M 超長上下文的極端場景下，能將預填充（Prefill）階段加速約 9 倍，解碼（Decoding）階段更是瘋狂提速達 15 倍，徹底破解了長上下文 AI 的高昂算力成本瓶頸。

從 Step Zero 原生多模態，Coding 與 Agent 能力登頂

與許多在後訓練（Post-training）階段才強行加入多模態功能的模型不同，MiniMax M3 強調「從預訓練 Step Zero 開始就是原生多模態」。這意味著文本、圖像與影片資料在底層就進行了深度語意融合，使其天生具備優異的長影片理解與複雜桌面操作能力。

在程式碼與 Agent 推理表現上，M3 同樣繳出了前沿的成績單。根據官方先前公布的基準測試，M3 在複雜軟體工程基準 SWE-Bench Pro 上達到 59.0% 的驚人正確率，在 Terminal Bench 2.1 亦高達 66.0%，非常適合處理多步推理、工具調用（Tool calling）等複雜的智慧代理工作流。同時，模型也貼心地支援「思考模式（Thinking）」與「非思考模式（Non-Thinking）」，讓用戶能在深度推理與低延遲場景之間自由切換。

官方部署建議：全面優化 NVIDIA Blackwell 平台

目前 MiniMax M3 已獲得 AI 社群的熱烈反響，開源鏡像也已同步上線 Unsloth 平台。在部署實踐上，官方 Cookbook 推薦開發者優先使用 SGLang、vLLM 或 Transformers（需在程式碼中設定 `trust_remote_code=True`）進行推服。值得注意的是，該模型已針對 NVIDIA Blackwell 等新一代硬體平台進行了深度優化支援，配合 MXFP8 量化版，將幫助全球開發者更低成本地建構次世代的多模態 Agent 應用。