原創剛剛！DeepSeek發表新論文_上海偉傑國際貨物運輸代理有限公司

AIPress.com.cn報道

1月13日訊息，DeepSeek帶著新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》強勢迴歸論文。

這不僅讓網友感慨 "DeepSeek is back"，更為即將到來的DeepSeek v4描繪了清晰的輪廓論文。

這項研究的核心在於填補了現有 Transformer 架構的一塊拼圖：用「條件記憶」來補全「條件計算」論文。

以下是對這項研究核心機制、架構創新及效能表現的分析論文：

1. 核心痛點論文：計算與記憶的失衡

目前的稀疏大模型DeepSeek-V3主要依賴MoE架構論文。MoE實現了「條件計算」，即根據輸入只啟用部分引數。

然而，DeepSeek指出，現有的Transformer缺乏原生的「查詢」機制論文。模型為了獲取靜態知識，被迫透過昂貴的計算過程來模擬檢索行為。這導致了計算資源的浪費和知識呼叫的低效。

展開全文

解決方案：提出Engram模組，引入「條件記憶」，將靜態知識的儲存與動態推理計算分離開來論文。

2. Engram 架構：如何實現 O(1) 查詢論文？

Engram的設計目標是將靜態模式儲存從Transformer主幹中剝離論文。它不依賴複雜的注意力機制去“尋找”記憶，而是透過確定性的雜湊演算法直接“定位”記憶。

Engram的工作流程主要分為兩個階段論文：

基於雜湊的稀疏檢索:

壓縮與對映：首先透過分詞器將輸入壓縮，最大化語義密度論文。

N-gram雜湊：提取當前位置的N-gram特徵，利用多頭雜湊機制，以 $O(1)$ 的時間複雜度直接從巨大的嵌入表中檢索對應的靜態向量論文。

上下文感知門控:

檢索到的靜態向量（先驗知識）不能直接生硬地插入，需要結合當前的上下文論文。

Engram 引入了一個類似注意力機制的門控，將檢索到的靜態資訊與當前模型的動態隱藏狀態融合，並透過輕量級卷積進行精煉論文。

3. 擴充套件規律論文：MoE與Engram的黃金比例

DeepSeek研究發現，單純堆疊MoE專家並不是最優解論文。在總引數量和計算量鎖定的前提下，如何分配「神經計算（MoE）」與「靜態記憶（Engram）」的比例至關重要。

研究揭示了一條U型擴充套件規律：

純MoE基準並非最優論文。

將大約20%-25%的稀疏引數預算分配給Engram，模型能達到最佳效能論文。

這意味著「條件記憶」是稀疏大模型中一個獨立且不可或缺的新維度論文。

4. 系統級最佳化論文：存算解耦與硬體感知

Engram的一大優勢是系統效率論文。由於其檢索是確定性的，不需要像MoE那樣等待前面的層計算完才知道要啟用誰。

存算解耦：既然不需要動態路由，記憶表就可以不完全放在昂貴的GPU視訊記憶體裡論文。

預取-重疊策略: 系統可以利用PCIe頻寬，從容量巨大的主機記憶體甚至SSD中預取所需的向量，同時GPU在計算前序層論文。

硬體-演算法協同：透過合理放置Engram層的位置，可以完美掩蓋資料傳輸的延遲，實現幾乎零開銷的效能提升論文。

5. 實驗結果論文：全方位碾壓

DeepSeek將Engram擴充套件到了27B引數規模論文，並在同等引數、同等FLOPs下與MoE模型進行了對比：

知識能力暴漲： MMLU (+3.4)、CMMLU (+4.0) 提升顯著，這符合“記憶”模組的預期論文。

推理能力意外提升：程式碼（HumanEval +3.0）和數學（MATH +2.4）表現更好論文。

長文字能力的質變論文：

Engram能夠處理區域性依賴，釋放了Transformer的注意力機制去處理全域性上下文論文。

在Multi-Query NIAH測試中，準確率從84.2%飆升至97.0%論文。

透過層級相似度分析，如上圖CKA熱力圖，Engram實際上增加了模型的有效深度論文。它將簡單的模式匹配任務在淺層就透過查表解決了，讓深層網路能專注於更復雜的邏輯推理。

DeepSeek 的這項工作不僅提出了一個新的模組Engram，更重要的是確立了大模型稀疏性的新正規化：雙軸稀疏（Dual-Axis Sparsity）論文。

未來的大模型論文，也許就是DeepSeek v4，將同時擁有：

條件計算 (MoE): 用於處理複雜的邏輯和動態推理論文。

條件記憶 (Engram): 用於儲存海量的世界知識和固定模式論文。

這種組合在同等算力下，實現了更強的智慧表現和更高效的系統吞吐論文。

原創剛剛！DeepSeek發表新論文