克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
MiniMax啟動科創板IPO輔導後,新一代旗艦模型M3也正式登場論文。
剛剛釋出的M3, 把前沿Coding能力、1M超長上下文、原生多模態這三條科技樹,同時點滿論文。
MiniMax稱,M3是目前的開源模型當中,唯一能同時做到這三點的論文。
它在SWE-Bench Pro上超過了GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7論文。
而在面向自主Agent的端到端評測Claw-Eval上,M3拿到了最高分論文。
為了證明三種能力確實同時線上,MiniMax團隊把一篇ICLR 2025獲獎論文丟給M3獨立復現——
展開全文
論文又長又硬、圖文並茂論文,要看懂裡面的曲線圖、資料、公式得靠多模態;
論文、程式碼、實驗日誌一次性塞進視窗得靠長上下文論文;
長執行緒甚至併發地跑完復現得靠程式設計和agent能力論文。
論文又長又硬、圖文並茂論文,要看懂裡面的曲線圖、資料、公式得靠多模態;
論文、程式碼、實驗日誌一次性塞進視窗得靠長上下文論文;
長執行緒甚至併發地跑完復現得靠程式設計和agent能力論文。
結果M3獨立跑了接近12小時,最終成功把論文的核心實驗全部跑通論文。
現在,MiniMax M3已經可以在MiniMax Code、Token Plan和API服務中體驗到論文。
長上下文、程式設計、多模態同時線上
和M系列以往的路徑相同,M3同時點滿長上下文、Coding和多模態這三條科技樹,依然是在向Coding和Agent方向重點發力論文。
MiniMax用幾道真題測了它的實際表現論文。
FP8矩陣乘(GEMM)最佳化是大模型推理裡最佳化難度最高的環節之一,資深工程團隊通常要集中投入1-2周才能在NVIDIA Hopper架構上寫出一個生產級kernel論文。
MiniMax把這道題丟給M3,起點只有一份任務描述、一個benchmark指令碼、一個跑不起來的Triton骨架,沒有任何參考實現可以抄論文。
隨後約24小時,M3自己走完了從baseline到生產級最佳化的全部路徑,其間完成了147次benchmark提交、1959次工具呼叫論文。
並且,效能瓶頸診斷、CUDA Graph整合、persistent kernel重寫等一系列步驟中,M3在每一步都拿benchmark反饋來驗證自己論文。
最終經過6輪標誌性最佳化,Hopper FP8硬體峰值利用率從首版7.6%幹到了71.3%,實現9.4倍加速論文。
執行過程本身也值得關注論文。
其餘模型大多在前30次提交內就不再進展、主動退出了,M3的最優解出現在第145次提交,在那之前它經歷了多個效能平臺期,但一直在繼續嘗試不同方向論文。
除了最佳化運算元,M3還能獨立復現論文論文。
MiniMax把一篇ICLR 2025 Outstanding Paper Award獲獎論文扔給它,這篇論文研究的是大模型微調過程中的學習動力學論文。
論文字身又長又硬、圖文並茂,模型需要看懂裡面的曲線圖、資料、公式然後編寫程式碼並執行論文。
這個任務重,M3自主執行接近12小時,產出18次commit與23張實驗圖表論文。
它不僅跑通了核心實驗,成功吻合了SFT階段的預測機率變化趨勢,還清晰觀測到DPO實驗重點討論的squeezing效應,並順利驗證了原論文提出的Extend緩解方法論文。
中途遇到跑不通的實驗,它會自己進行診斷,碰到結果對不上的地方就自己調整,整個過程始終沒有人工介入論文。
除此之外,M3還能給其他模型當教練論文。
MiniMax在PostTrainBench上讓它接手四個只完成預訓練的Base模型,任務是在12小時內自主完成資料合成、訓練、評測、迭代的全部流程,最終讓這些模型在數學推理、工具呼叫、科學知識推理、程式碼生成等任務上具備基本能力論文。
這道題沒有清晰的反饋結構,也沒有標準答案,M3需要自己判斷合成什麼資料、選什麼訓練策略,並根據每輪評測結果,決定下一步怎麼調論文。
它先分析每個Base模型在各任務上的短板,再決定為每個方向合成哪些資料,跑完訓練拿到評測結果之後,再自己判斷哪個任務還差得遠、哪個方向的資料質量不夠、下一輪應該往哪裡加力論文。
如果發現某個任務的資料覆蓋不足,它會重新設計合成方案;某輪訓練效果不達預期,它會調整策略再跑一輪論文。
不同輪次的評測結果出來之後,它會自己對比差異、總結規律、決定下一步論文。
整個12小時它都在自己拿主意,沒有人告訴它該怎麼做論文。
它最終得分0.37,略低於Opus 4.7(0.42)和GPT-5.5(0.39),但明顯領先其餘模型論文。
引入全新注意力機制
要解決更復雜的Agent任務,context scaling是繞不開的挑戰論文。
MiniMax為此從最底層的注意力機制入手,自己做了一套新的稀疏注意力架構,叫 MSA(MiniMax Sparse Attention)論文。
全注意力機制有個先天問題,它的計算複雜度隨上下文長度平方級增長論文。上下文越長,計算量爆炸得越快。
業內通常靠增加初篩階段來緩解這個問題,但精度和效率很難兼顧論文。
MSA的做法分兩步論文。
第一步是 Index Attention論文,用輕量的索引query對KV塊做Block Max Pool,選出Top-k的高相關塊;
第二步, 再對選出來的塊做完整的Sparse Attention計算論文。
第一步是 Index Attention論文,用輕量的索引query對KV塊做Block Max Pool,選出Top-k的高相關塊;
第二步, 再對選出來的塊做完整的Sparse Attention計算論文。
跟DSA、MoBA等方案相比,MSA可以更精確地為KV分塊,實現更高的有效上下文覆蓋論文。
運算元層面,MiniMax也做了專門最佳化,採用以KV塊為外層聚合命中query的KV outer gather Q方式,每塊只讀一次、訪存連續論文。
在M3的head配比下,這種模式的計算訪存比顯著優於通行方法,比開源的Flash-Sparse-Attention、FlashMoBA快4倍以上論文。
效果上,在1M上下文下, M3每token的計算量只有上代模型的1/20,prefilling階段提速超過9倍,decoding階段提速超過15倍,且絕大部分能力與全注意力持平論文。
多模態方面,M3 從預訓練第一步就做圖文混合訓練,不同模態資料的語義空間從一開始就在同一套框架下融合論文。
MiniMax做了大量實驗,發現文字和影像在序列中交替排列的interleaved data,對模型效能的提升比通常認為的更關鍵論文。
為了大規模獲取這類資料,MiniMax重構了整套資料管線,訓練資料Token規模因此可以提升到100萬億量級論文。
Coding能力這邊,MiniMax認為今天模型的Coding水平,越來越取決於能否用真實世界的使用者邏輯來訓練論文。
大多數程式碼Agent的訓練和評測建立在單輪任務的假設上,但真實場景裡使用者往往在同一個session裡持續協作論文。
為了縮小這個差距,MiniMax構建了一套互動式使用者模擬器框架,模擬真實開發者在協作過程中的行為模式,讓模型在訓練階段就接觸到更接近生產環境的互動場景論文。