大模型獨角獸 MiniMax 今(12)日正式於 Hugging Face 開源其全新旗艦模型「MiniMax […] 〈MiniMax M3 正式開源:428B 原生多模態 MoE、1M 超長上下文〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。大模型獨角獸 MiniMax 今(12)日正式於 Hugging Face 開源其全新旗艦模型「MiniMax […] 〈MiniMax M3 正式開源:428B 原生多模態 MoE、1M 超長上下文〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

MiniMax M3 正式開源:428B 原生多模態 MoE、1M 超長上下文

2026/06/12 23:53
閱讀時長 7 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

大模型獨角獸 MiniMax 今(12)日正式於 Hugging Face 開源其全新旗艦模型「MiniMax M3」的原生多模態 MoE 模型權重。該模型總參數達 428B,單 Token 啟動參數僅 23B,並具備高達 1M 的超長上下文處理能力。
(前情提要:MiniMax M3 正式發布:跑分接近 Claude Opus 4.7,但價格只要十分之一
(背景補充:MiniMax 準備 A 股 IPO 科創板!與智譜同步上市吸 AI 資本

本文目錄

Toggle
  • 428B 總參數 MoE 架構!單 Token 啟動僅 23B
  • 獨創 MSA 技術!1M 超長上下文「解碼提速 15 倍」
  • 從 Step Zero 原生多模態,Coding 與 Agent 能力登頂
  • 官方部署建議:全面優化 NVIDIA Blackwell 平台

球 AI 開源社群迎來震撼彈。大模型獨角獸 MiniMax 於台北時間今(12)日正式宣布,其備受期待的全新旗艦模型 ——「MiniMax M3」,已正式以開放權重(Open-Weight)形式上架開源平台 Hugging Face。這份緊跟著 6 月 1 日官方預告而來的技術大禮,力求全面開放原生多模態混合專家模型(MoE)的權重,並將長文本處理成本降至新低,預計將對現有的開源大模型格局造成劇烈洗牌。

428B 總參數 MoE 架構!單 Token 啟動僅 23B

根據 Hugging Face 官方模型庫 顯示,MiniMax M3 採用了極具效率的混合專家(MoE)架構。雖然其總參數高達 428B,但透過 128 個專家網路的精細分工,單個 Token 在運行時僅需啟動其中的 4 個專家,相當於僅啟動約 23B 的參數。模型整體設計為 60 層,這種「大容量、低消耗」的 MoE 架構,完美平衡了模型的知識儲備與推理解碼的速度性能。

此外,為了方便不同硬體配備的開發者與企業進行本地部署,MiniMax 此次除了提供 bfloat16 原始精度主版本外,還同步推出了基於 MXFP8 的量化版本(MiniMax-M3-MXFP8),大幅降低了顯示記憶體(VRAM)的佔用門檻。

獨創 MSA 技術!1M 超長上下文「解碼提速 15 倍」

在長文本處理上,MiniMax M3 將上下文長度強勢擴展至 1M Token(約百萬字級別)。這項技術突破得益於官方獨創的 MSA(MiniMax Sparse Attention,區塊稀疏注意力) 機制。根據官方發布的 MSA 技術論文 顯示,該機制透過「lightning indexer」實現高效的區塊稀疏注意力計算,在 1M 超長上下文的極端場景下,能將預填充(Prefill)階段加速約 9 倍,解碼(Decoding)階段更是瘋狂提速達 15 倍,徹底破解了長上下文 AI 的高昂算力成本瓶頸。

從 Step Zero 原生多模態,Coding 與 Agent 能力登頂

與許多在後訓練(Post-training)階段才強行加入多模態功能的模型不同,MiniMax M3 強調「從預訓練 Step Zero 開始就是原生多模態」。這意味著文本、圖像與影片資料在底層就進行了深度語意融合,使其天生具備優異的長影片理解與複雜桌面操作能力。

在程式碼與 Agent 推理表現上,M3 同樣繳出了前沿的成績單。根據官方先前公布的基準測試,M3 在複雜軟體工程基準 SWE-Bench Pro 上達到 59.0% 的驚人正確率,在 Terminal Bench 2.1 亦高達 66.0%,非常適合處理多步推理、工具調用(Tool calling)等複雜的智慧代理工作流。同時,模型也貼心地支援「思考模式(Thinking)」與「非思考模式(Non-Thinking)」,讓用戶能在深度推理與低延遲場景之間自由切換。

官方部署建議:全面優化 NVIDIA Blackwell 平台

目前 MiniMax M3 已獲得 AI 社群的熱烈反響,開源鏡像也已同步上線 Unsloth 平台。在部署實踐上,官方 Cookbook 推薦開發者優先使用 SGLangvLLMTransformers(需在程式碼中設定 `trust_remote_code=True`)進行推服。值得注意的是,該模型已針對 NVIDIA Blackwell 等新一代硬體平台進行了深度優化支援,配合 MXFP8 量化版,將幫助全球開發者更低成本地建構次世代的多模態 Agent 應用。

📍相關報導📍

美國議員提案《AI 盜竊法》蒸餾模型的中國廠商恐遭制裁!DeepSeek、MiniMax 列主要打擊目標

中國河南博士生創立 MiniMax,不到OpenAI 1% 資金打造 3000 億市值 AI 平台

為什麼中國 AI 的極致性價比讓矽谷集體感到焦慮?

完成預測交易,解鎖大獎資格

完成預測交易,解鎖大獎資格完成預測交易,解鎖大獎資格

獎金池高達 $500,000,100% 中獎!

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

真實美股已上線

真實美股已上線真實美股已上線

透過持牌券商,用 USDT 交易真實美股