DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

今日凌晨,DeepSeek 在 GitHub 上釋出了一項代號為“Engram”的最新研究成果,並同步上傳了題為Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基於可擴充套件查詢的條件記憶:大語言模型稀疏性的新維度)的學術論文論文

DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

(來源:GitHub)

這篇由梁文鋒、DeepSeek 研究團隊與北京大學聯合署名的論文,一經發表就引發了廣泛討論論文

此次研究帶來了一項突破:在業界廣泛採用的“混合專家模型”(MoE)之外,DeepSeek 開闢了第二條提升模型效率的路徑——“條件記憶”(Conditional Memory)論文。如果說 MoE 解決了“如何高效計算”的問題,那麼新提出的 Engram 架構則試圖解決“如何高效儲存與提取知識”的難題。

在此前的 DeepSeek-V2 和 V3 取得巨大成功後,基於 Transformer 的 MoE 架構已成為最具代表性、應用最廣泛的稀疏化方案之一論文。MoE 透過“條件計算”(Conditional Computation)機制,即在處理每個詞元(Token)時僅啟用模型引數的一小部分,成功打破了模型規模與推理成本之間的線性約束。

然而,DeepSeek 研究團隊指出,儘管 MoE 極大地最佳化了計算效率,在當前以注意力與前饋網路為核心的 Transformer 正規化下,模型並不具備顯式、可定址的知識查詢機制論文

在現有的架構中,模型記憶知識的方式是隱式的論文。當模型需要回答“法國的首都是哪裡”時,它無法像人類查閱字典那樣直接檢索出“巴黎”這個詞,而是需要透過多層注意力機制(Attention)和前饋神經網路(FFN)進行復雜的矩陣運算,實際上是在透過計算來模擬檢索過程。

這種機制造成了巨大的資源浪費:模型不得不動用寶貴的推理算力去“死記硬背”大量固定的事實性知識(如人名、地名、固定搭配等),這不僅效率低下,還擠佔了模型處理複雜邏輯推理的“腦容量”論文

展開全文

DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

(來源:Nano Banana Pro)

針對這一點,DeepSeek 提出了“條件記憶”的概念,並設計了實體模組 Engram 來加以實現論文。Engram 的設計靈感源自自然語言處理(NLP)領域經典的 N-gram(N 元語法)模型,但在深度學習語境下進行了現代化改造。傳統的 N-gram 依靠統計詞彙共現頻率來預測下一個詞,而 Engram 則將其轉化為一種可學習的、基於雜湊(Hash)的向量檢索系統。

DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

圖 | Engram 模組的整體架構示意(來源:論文)

具體而言,Engram 模組被嵌入到 Transformer 的主幹網路中,與 MoE 層並行或交替工作論文。當模型處理輸入文字時,Engram 不依賴深層神經網路計算,而是透過兩步輕量化的檢索與融合操作完成資訊注入:

首先是“檢索”,它將當前的區域性上下文(例如最近出現的幾個詞)進行壓縮並透過多頭雜湊對映,在演算法層面實現近似 O(1) 的常數時間查表,並透過預取機制在系統層面將實際延遲控制在極低水平;其次是“融合”,透過一個上下文感知的門控機制(Gating Mechanism),將檢索到的靜態記憶向量與模型計算出的動態隱藏狀態進行加權融合論文

我們可以將傳統的 Transformer 模型想象一個不僅需要理解題意,還需要現場推導所有數學公式和歷史資料的考生;而搭載了 Engram 的模型,則相當於被允許帶入考場一本百科全書論文。遇到固定的知識點,Engram 直接查表獲得答案,而將寶貴的“大腦”算力集中用於處理從未見過的複雜邏輯題。這種“計算”與“記憶”的解耦,正是 DeepSeek 新架構的核心邏輯。

這項研究並不僅停留在理論層面,DeepSeek 在論文中披露了名為“稀疏性分配”(Sparsity Allocation)的關鍵發現,揭示了模型效能背後的數學規律論文。研究人員在嚴格控制總引數量和計算量(FLOPs)不變的前提下,系統性地調整了分配給 MoE 專家與 Engram 記憶表的引數比例。

實驗結果呈現出一條清晰的“U 型曲線”:最佳的模型效能既不出現在純粹的 MoE 架構中,也不出現在過度依賴記憶的架構中,而是當大約 20% 至 25% 的稀疏引數預算分配給 Engram,而剩餘部分留給 MoE 時(即ρ≈75% -80% 時),模型效能達到最佳論文

DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

圖 | 稀疏性分配與記憶痕跡擴充套件 (來源:論文)

基於這一發現,DeepSeek 訓練了一個擁有 270 億引數的 Engram-27B 模型,並在同等引數規模和計算消耗下,與標準的 MoE-27B 模型進行了全方位的對比測試論文。結果顯示,引入條件記憶機制後,模型在多個關鍵維度上實現了效能的顯著躍升。

在知識密集型任務中,Engram 的優勢符合預期論文。例如在衡量綜合知識水平的 MMLU(大規模多工語言理解)基準測試中,Engram-27B 的得分比基準模型高出 3.4 分;在中文綜合基準 CMMLU 上,提升幅度更是達到了 4.0 分。這直接證明了外掛式的高效記憶模組能顯著擴充模型的知識庫。

不過,更令人意外的是 Engram 在通用推理能力上的表現論文。在衡量複雜推理能力的 BBH(Big-Bench Hard)基準上,Engram 模型取得了 5.0 分的巨大提升;在 ARC-Challenge 科學推理任務中提升了 3.7 分。甚至在傳統認為高度依賴邏輯推演的程式碼生成(HumanEval +3.0)和數學解題(MATH +2.4)任務中,Engram 同樣表現出了顯著優勢。

DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

圖 | 預訓練效能比較:Dense 模型、MoE 模型與 Engram 模型(來源:論文)

為何一個看似負責“死記硬背”的記憶模組,能提升模型的邏輯推理能力?DeepSeek 團隊利用 LogitLens 和 CKA(中心核對齊)等可解釋性工具進行了深入的機理分析,得出了一個極具洞察力的結論:Engram 有效增加了模型的“有效深度”(Effective Depth)論文

分析顯示,在沒有 Engram 的傳統模型中,底層的許多神經網路層實際上在忙於構建基礎的詞法組合和短語模式,這是一種低階的“特徵重構”工作論文。而在引入 Engram 後,這些區域性的、固定的語言模式(如“紐約”後緊接“時代廣場”,“人工智慧”是一個專有名詞),這些都直接透過查表解決。

這使得模型的主幹網路從繁瑣的淺層任務中解脫出來,能夠將更多的層數和注意力資源投入到更高層級的語義理解和邏輯推演中論文。換言之,Engram 透過承擔記憶職能,在不增加層數的前提下,提高了模型用於複雜推理的“有效深度”。

(來源論文:論文)

此外,Engram 架構還在長文字處理(Long Context)領域展現出了意想不到的結構性優勢論文。在處理長篇文件時,注意力機制往往面臨巨大的計算壓力。DeepSeek 的研究表明,文字中大量的依賴關係其實是區域性的(Local),可以透過 N-gram 查詢來解決。Engram 負責處理這些區域性依賴,從而釋放了 Transformer 全域性注意力機制的容量,使其能更專注於捕捉跨度極大的長程關聯。

在極具挑戰性的“大海撈針”(Needle In A Haystack)測試中,Engram-27B 在該測試中的表現顯著優於基準模型論文。。在多查詢(Multi-Query)設定下,其準確率從基準 MoE 模型的 84.2% 飆升至 97.0%;在變數跟蹤(Variable Tracking)任務中,準確率從 77.0% 提升至 89.0%。這意味著,搭載 Engram 的模型在處理法律合同分析、長篇小說理解或大型程式碼庫維護等需要極高精度的長文字任務時,將具備更強的魯棒性。

DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

圖 | MoE 模型和 Engram 模型長上下文效能對比(來源:論文)

除了模型效能層面的突破,DeepSeek 延續了其一貫的“高效基礎設施”理念,在 Engram 的工程實現上做到了極致論文。在當前的硬體環境下,視訊記憶體(HBM)往往是制約大模型規模的瓶頸。然而,Engram 展現出了基礎設施感知(Infrastructure-aware)的特性。

與 MoE 依賴執行時動態路由不同,Engram 的檢索是基於輸入文字的確定性雜湊論文。這意味著,系統在正式計算某一層之前,就已經確切知道需要用到哪些記憶向量。這種確定性使得“預取”(Prefetching)策略成為可能。

DeepSeek 在實驗中成功演示了將一個高達 1,000 億引數的 Engram 嵌入表完全儲存在廉價的主機記憶體(CPU DRAM)中,而非昂貴的 GPU 視訊記憶體裡論文。在模型計算前序層級時,系統透過 PCIe 通道非同步地將所需的記憶資料搬運至 GPU。

實驗資料顯示,即使在 1,000 億引數的超大規模下,這種跨硬體的儲存與計算解耦方案帶來的額外推理延遲也不到 3%論文。這一工程結果表明,在特定的系統設計與實驗條件下,模型引數規模不再嚴格受限於 GPU 視訊記憶體容量。理論上,這一設計為未來 DeepSeek 掛載 TB 級別的超大規模記憶庫提供了可行路徑,而無需成倍增加昂貴的算力叢集成本。

綜合此次釋出的 Engram 論文,以及今年元旦期間 DeepSeek 釋出的關於“流形約束超連線”(Manifold-Constrained Hyper-Connections, mHC)的研究,DeepSeek-V4 的架構開始逐漸具象化論文

如果說 MoE 架構(條件計算)是 DeepSeek-V2/V3 的基石,那麼 V4 有望在架構層面呈現出更高程度的整合性:它將融合 mHC 以最佳化專家間的通訊效率,同時引入 Engram 作為獨立的“海馬體”模組論文。這種架構不再是簡單的引數堆疊,而是向著人類大腦“計算與記憶分離、協同工作”的生物學原理邁進。MoE 負責動態的邏輯處理,Engram 負責靜態的知識檢索,兩者互為補充,共同構成了一個更高效、更博學且更擅長推理的智慧系統。

參考連結論文

Github 論文地址論文

運營/排版論文:何晨龍

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://lpwww.com/post/4698.html

🌐 /