梁文鋒署名論文！DeepSeek首輪融資後大動作：生成速度大漲85%

智東西

作者 | 李水青

編輯 | 心緣

智東西6月27日報道論文，繼完成500億元融資後，今日，DeepSeek首次放出開源新成果！

剛剛，DeepSeek開源了一套讓現有模型跑得更快的工程方案：推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型，並開源推測解碼（Speculative Decoding）框架DSpark以及推測解碼訓練框架DeepSpec論文。

▲DeepSeek-V4-Pro-DSpark開源上新頁面截圖

根據同步上傳的梁文鋒署名、聯合北京大學完成的論文《DSpark：基於半自迴歸生成的置信度排程推測解碼（DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation）》，將DSpark部署在DeepSeek-V4線上服務系統、承接真實使用者流量時，它有效減少了無效校驗帶來的算力浪費論文。

展開全文

相較於成熟的生產基線方案（MTP-1），在保持整體吞吐不變的前提下，DSpark把單使用者生成速度提升60%-85%論文。更關鍵的是，在嚴格互動時延約束下，DSpark避免了吞吐率大幅滑坡，實現了以往無法達成的效能檔位，推高了整套服務系統的帕累托最優邊界。

▲DSpark論文截圖

Hugging Face地址論文：

GitHub地址論文：

論文地址論文：

根據Hugging Face上的模型卡，DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark並非新模型，而是在原有版本的基礎上，增加了一個推測解碼模組，用以加快推理速度、降低成本論文。

推測解碼，簡單來說，是一種大模型推理無損技術，核心流程為先打草稿、後驗證論文。其將草稿生成與目標模型校驗解耦，以此加速大語言模型推理。

當前主流並行草稿器能夠單次前向運算生成超長token序列，但由於token之間缺少依賴關係，草稿後續內容的透過率會快速下滑論文。此外，如果對整段長候選序列無差別校驗，會把寶貴的批次算力浪費在極易被駁回的token上，從而導致高併發服務場景下整體吞吐率大幅下降。

為此，DeepSeek提出DSpark推測解碼框架，把高吞吐並行生成與自適應、感知負載的校驗機制結合在一起論文。為保證草稿質量，DSpark採用半自迴歸架構：將並行主幹網路與輕量序列模組相結合，建模組內token依賴，緩解末尾內容透過率衰減問題。

▲DSpark架構與解碼流程

為最佳化系統執行效率，DSpark引入置信度排程校驗機制：根據預估的字首透過機率與引擎吞吐特徵，為每一條請求動態調整校驗長度論文。在多領域離線基準測試中，相比當前最優的自迴歸草稿器與並行草稿器，DSpark能夠顯著提升有效透過序列長度。

如下圖所示，針對這DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark兩款模型，DeepSeek提供了一個最小推理示例論文。

▲DeepSeek提供的最小推理示例

總的來說，使用者在部署DSpark版本的DeepSeek-V4模型後，有望在生成速度、首token延遲、併發能力等方面獲得體驗提升論文。

再來看看DeepSpec，這是一個用於訓練和評估推測性解碼草稿模型（Draft Model）的全棧程式碼庫，或者說工具鏈，它包含資料準備工具、草稿模型實現、訓練程式碼和評估指令碼，支援MIT許可論文。

▲DeepSpec開源上新頁面截圖

DeepSpec的工作流程如下論文，它會按順序執行各個階段，每個階段的輸出為下一個階段提供反饋:

1、資料準備：下載提示，重新生成目標答案，並構建目標快取論文。

2、訓練：針對快取的目標輸出訓練一個模型論文。

3、評估：在基準任務上衡量推測解碼的接受程度論文。

目前，DeepSpec支援的演算法包括三個草稿模型：DSpark、DFlash和Eagle3論文。

DeepSpec團隊還在最後向SpecForge（Apache-2.0）、DFlash（MIT）以及Qwen3和Gemma發文致謝論文。

▲DeepSeek致謝情況

可以看到，DeepSeek不僅釋出相關模型，還開放完整的訓練框架，供開發者和企業用這套工具給自己的Qwen3、Gemma等模型訓練草稿模型論文。

結語：推理重要度提高論文，考驗工程化能力

DeepSeek本次釋出雖然低調，也不是新模型迭代，但實際含金量不低論文。DeepSeek釋出了一套讓現有模型跑得更快的工程方案，有望帶來更快更低成本的推理體驗，並降低推測解碼的落地門檻。

大模型競賽已進入訓練與推理並重的系統博弈階段論文。本次也是DeepSeek完成融資後，率先落子推理最佳化賽道。戰略意圖也很明確：不僅要加速模型迭代和產品化，還要向下搶佔算力效率競爭制高點。

梁文鋒署名論文！DeepSeek首輪融資後大動作：生成速度大漲85%

海之嵐財稅公司

熱門標籤

相關詞彙

分站導航