MiniMax新旗艦M3釋出！自己幹了12小時復現獲獎論文，三條科技樹同時點滿

克雷西發自凹非寺

量子位 | 公眾號 QbitAI

MiniMax啟動科創板IPO輔導後，新一代旗艦模型M3也正式登場論文。

剛剛釋出的M3，把前沿Coding能力、1M超長上下文、原生多模態這三條科技樹，同時點滿論文。

MiniMax稱，M3是目前的開源模型當中，唯一能同時做到這三點的論文。

它在SWE-Bench Pro上超過了GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7論文。

而在面向自主Agent的端到端評測Claw-Eval上，M3拿到了最高分論文。

為了證明三種能力確實同時線上，MiniMax團隊把一篇ICLR 2025獲獎論文丟給M3獨立復現——

展開全文

論文又長又硬、圖文並茂論文，要看懂裡面的曲線圖、資料、公式得靠多模態；

論文、程式碼、實驗日誌一次性塞進視窗得靠長上下文論文；

長執行緒甚至併發地跑完復現得靠程式設計和agent能力論文。

論文又長又硬、圖文並茂論文，要看懂裡面的曲線圖、資料、公式得靠多模態；

論文、程式碼、實驗日誌一次性塞進視窗得靠長上下文論文；

長執行緒甚至併發地跑完復現得靠程式設計和agent能力論文。

結果M3獨立跑了接近12小時，最終成功把論文的核心實驗全部跑通論文。

現在，MiniMax M3已經可以在MiniMax Code、Token Plan和API服務中體驗到論文。

長上下文、程式設計、多模態同時線上

和M系列以往的路徑相同，M3同時點滿長上下文、Coding和多模態這三條科技樹，依然是在向Coding和Agent方向重點發力論文。

MiniMax用幾道真題測了它的實際表現論文。

FP8矩陣乘（GEMM）最佳化是大模型推理裡最佳化難度最高的環節之一，資深工程團隊通常要集中投入1-2周才能在NVIDIA Hopper架構上寫出一個生產級kernel論文。

MiniMax把這道題丟給M3，起點只有一份任務描述、一個benchmark指令碼、一個跑不起來的Triton骨架，沒有任何參考實現可以抄論文。

隨後約24小時，M3自己走完了從baseline到生產級最佳化的全部路徑，其間完成了147次benchmark提交、1959次工具呼叫論文。

並且，效能瓶頸診斷、CUDA Graph整合、persistent kernel重寫等一系列步驟中，M3在每一步都拿benchmark反饋來驗證自己論文。

最終經過6輪標誌性最佳化，Hopper FP8硬體峰值利用率從首版7.6%幹到了71.3%，實現9.4倍加速論文。

執行過程本身也值得關注論文。

其餘模型大多在前30次提交內就不再進展、主動退出了，M3的最優解出現在第145次提交，在那之前它經歷了多個效能平臺期，但一直在繼續嘗試不同方向論文。

除了最佳化運算元，M3還能獨立復現論文論文。

MiniMax把一篇ICLR 2025 Outstanding Paper Award獲獎論文扔給它，這篇論文研究的是大模型微調過程中的學習動力學論文。

論文字身又長又硬、圖文並茂，模型需要看懂裡面的曲線圖、資料、公式然後編寫程式碼並執行論文。

這個任務重，M3自主執行接近12小時，產出18次commit與23張實驗圖表論文。

它不僅跑通了核心實驗，成功吻合了SFT階段的預測機率變化趨勢，還清晰觀測到DPO實驗重點討論的squeezing效應，並順利驗證了原論文提出的Extend緩解方法論文。

中途遇到跑不通的實驗，它會自己進行診斷，碰到結果對不上的地方就自己調整，整個過程始終沒有人工介入論文。

除此之外，M3還能給其他模型當教練論文。

MiniMax在PostTrainBench上讓它接手四個只完成預訓練的Base模型，任務是在12小時內自主完成資料合成、訓練、評測、迭代的全部流程，最終讓這些模型在數學推理、工具呼叫、科學知識推理、程式碼生成等任務上具備基本能力論文。

這道題沒有清晰的反饋結構，也沒有標準答案，M3需要自己判斷合成什麼資料、選什麼訓練策略，並根據每輪評測結果，決定下一步怎麼調論文。

它先分析每個Base模型在各任務上的短板，再決定為每個方向合成哪些資料，跑完訓練拿到評測結果之後，再自己判斷哪個任務還差得遠、哪個方向的資料質量不夠、下一輪應該往哪裡加力論文。

如果發現某個任務的資料覆蓋不足，它會重新設計合成方案；某輪訓練效果不達預期，它會調整策略再跑一輪論文。

不同輪次的評測結果出來之後，它會自己對比差異、總結規律、決定下一步論文。

整個12小時它都在自己拿主意，沒有人告訴它該怎麼做論文。

它最終得分0.37，略低於Opus 4.7（0.42）和GPT-5.5（0.39），但明顯領先其餘模型論文。

引入全新注意力機制

要解決更復雜的Agent任務，context scaling是繞不開的挑戰論文。

MiniMax為此從最底層的注意力機制入手，自己做了一套新的稀疏注意力架構，叫 MSA（MiniMax Sparse Attention）論文。

全注意力機制有個先天問題，它的計算複雜度隨上下文長度平方級增長論文。上下文越長，計算量爆炸得越快。

業內通常靠增加初篩階段來緩解這個問題，但精度和效率很難兼顧論文。

MSA的做法分兩步論文。

第一步是 Index Attention論文，用輕量的索引query對KV塊做Block Max Pool，選出Top-k的高相關塊；

第二步，再對選出來的塊做完整的Sparse Attention計算論文。

第一步是 Index Attention論文，用輕量的索引query對KV塊做Block Max Pool，選出Top-k的高相關塊；

第二步，再對選出來的塊做完整的Sparse Attention計算論文。

跟DSA、MoBA等方案相比，MSA可以更精確地為KV分塊，實現更高的有效上下文覆蓋論文。

運算元層面，MiniMax也做了專門最佳化，採用以KV塊為外層聚合命中query的KV outer gather Q方式，每塊只讀一次、訪存連續論文。

在M3的head配比下，這種模式的計算訪存比顯著優於通行方法，比開源的Flash-Sparse-Attention、FlashMoBA快4倍以上論文。

效果上，在1M上下文下， M3每token的計算量只有上代模型的1/20，prefilling階段提速超過9倍，decoding階段提速超過15倍，且絕大部分能力與全注意力持平論文。

多模態方面，M3 從預訓練第一步就做圖文混合訓練，不同模態資料的語義空間從一開始就在同一套框架下融合論文。

MiniMax做了大量實驗，發現文字和影像在序列中交替排列的interleaved data，對模型效能的提升比通常認為的更關鍵論文。

為了大規模獲取這類資料，MiniMax重構了整套資料管線，訓練資料Token規模因此可以提升到100萬億量級論文。

Coding能力這邊，MiniMax認為今天模型的Coding水平，越來越取決於能否用真實世界的使用者邏輯來訓練論文。

大多數程式碼Agent的訓練和評測建立在單輪任務的假設上，但真實場景裡使用者往往在同一個session裡持續協作論文。

為了縮小這個差距，MiniMax構建了一套互動式使用者模擬器框架，模擬真實開發者在協作過程中的行為模式，讓模型在訓練階段就接觸到更接近生產環境的互動場景論文。

MiniMax新旗艦M3釋出！自己幹了12小時復現獲獎論文，三條科技樹同時點滿

海之嵐財稅公司

熱門標籤

相關詞彙

分站導航