梁文鋒署名論文!DeepSeek首輪融資後大動作:生成速度大漲85%

梁文鋒署名論文!DeepSeek首輪融資後大動作:生成速度大漲85%

智東西

作者 | 李水青

編輯 | 心緣

智東西6月27日報道論文,繼完成500億元融資後,今日,DeepSeek首次放出開源新成果!

剛剛,DeepSeek開源了一套讓現有模型跑得更快的工程方案:推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型,並開源推測解碼(Speculative Decoding)框架DSpark以及推測解碼訓練框架DeepSpec論文

梁文鋒署名論文!DeepSeek首輪融資後大動作:生成速度大漲85%

▲DeepSeek-V4-Pro-DSpark開源上新頁面截圖

根據同步上傳的梁文鋒署名、聯合北京大學完成的論文《DSpark:基於半自迴歸生成的置信度排程推測解碼(DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)》,將DSpark部署在DeepSeek-V4線上服務系統、承接真實使用者流量時,它有效減少了無效校驗帶來的算力浪費論文

展開全文

相較於成熟的生產基線方案(MTP-1),在保持整體吞吐不變的前提下,DSpark把單使用者生成速度提升60%-85%論文。更關鍵的是,在嚴格互動時延約束下,DSpark避免了吞吐率大幅滑坡,實現了以往無法達成的效能檔位,推高了整套服務系統的帕累托最優邊界。

梁文鋒署名論文!DeepSeek首輪融資後大動作:生成速度大漲85%

▲DSpark論文截圖

Hugging Face地址論文

GitHub地址論文

論文地址論文

根據Hugging Face上的模型卡,DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark並非新模型,而是在原有版本的基礎上,增加了一個推測解碼模組,用以加快推理速度、降低成本論文

推測解碼,簡單來說,是一種大模型推理無損技術,核心流程為先打草稿、後驗證論文。其將草稿生成與目標模型校驗解耦,以此加速大語言模型推理。

當前主流並行草稿器能夠單次前向運算生成超長token序列,但由於token之間缺少依賴關係,草稿後續內容的透過率會快速下滑論文。此外,如果對整段長候選序列無差別校驗,會把寶貴的批次算力浪費在極易被駁回的token上,從而導致高併發服務場景下整體吞吐率大幅下降。

為此,DeepSeek提出DSpark推測解碼框架,把高吞吐並行生成與自適應、感知負載的校驗機制結合在一起論文。為保證草稿質量,DSpark採用半自迴歸架構:將並行主幹網路與輕量序列模組相結合,建模組內token依賴,緩解末尾內容透過率衰減問題。

梁文鋒署名論文!DeepSeek首輪融資後大動作:生成速度大漲85%

▲DSpark架構與解碼流程

為最佳化系統執行效率,DSpark引入置信度排程校驗機制:根據預估的字首透過機率與引擎吞吐特徵,為每一條請求動態調整校驗長度論文。在多領域離線基準測試中,相比當前最優的自迴歸草稿器與並行草稿器,DSpark能夠顯著提升有效透過序列長度。

如下圖所示,針對這DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark兩款模型,DeepSeek提供了一個最小推理示例論文

梁文鋒署名論文!DeepSeek首輪融資後大動作:生成速度大漲85%

▲DeepSeek提供的最小推理示例

總的來說,使用者在部署DSpark版本的DeepSeek-V4模型後,有望在生成速度、首token延遲、併發能力等方面獲得體驗提升論文

再來看看DeepSpec,這是一個用於訓練和評估推測性解碼草稿模型(Draft Model)的全棧程式碼庫,或者說工具鏈,它包含資料準備工具、草稿模型實現、訓練程式碼和評估指令碼,支援MIT許可論文

梁文鋒署名論文!DeepSeek首輪融資後大動作:生成速度大漲85%

▲DeepSpec開源上新頁面截圖

DeepSpec的工作流程如下論文,它會按順序執行各個階段,每個階段的輸出為下一個階段提供反饋:

1、資料準備:下載提示,重新生成目標答案,並構建目標快取論文

2、訓練:針對快取的目標輸出訓練一個模型論文

3、評估:在基準任務上衡量推測解碼的接受程度論文

目前,DeepSpec支援的演算法包括三個草稿模型:DSpark、DFlash和Eagle3論文

DeepSpec團隊還在最後向SpecForge(Apache-2.0)、DFlash(MIT)以及Qwen3和Gemma發文致謝論文

▲DeepSeek致謝情況

可以看到,DeepSeek不僅釋出相關模型,還開放完整的訓練框架,供開發者和企業用這套工具給自己的Qwen3、Gemma等模型訓練草稿模型論文

結語:推理重要度提高論文,考驗工程化能力

DeepSeek本次釋出雖然低調,也不是新模型迭代,但實際含金量不低論文。DeepSeek釋出了一套讓現有模型跑得更快的工程方案,有望帶來更快更低成本的推理體驗,並降低推測解碼的落地門檻。

大模型競賽已進入訓練與推理並重的系統博弈階段論文。本次也是DeepSeek完成融資後,率先落子推理最佳化賽道。戰略意圖也很明確:不僅要加速模型迭代和產品化,還要向下搶佔算力效率競爭制高點。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://m.haizhilanhn.com/tags-%E8%90%AC%E5%80%BC.html

🌐 /