DeepSeek於12日晚釋出新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基於可擴充套件查詢的條件記憶:大型語言模型稀疏性的新維度)論文。
該論文為北京大學與DeepSeek共同完成,合著作者署名中出現梁文鋒論文。論文提出條件記憶(conditional memory),透過引入可擴充套件的查詢記憶結構,在等引數、等算力條件下顯著提升模型在知識呼叫、推理、程式碼、數學等任務上的表現。同時,DeepSeek開源相關記憶模組Engram。
責編論文:葉舒筠