是参数提升，更是能力边界的突破

湖南日报 2025-09-11 07:51:32

湖南日报全媒体记者王铭俊

DeepSeek推出的新一代大语言模型DeepSeek-V3.1引人注目。其中，亮点之一是上下文长度从64K扩展到了128K。这意味着什么？用户体验将有何不同？9月10日，记者采访了湖南师范大学人工智能系副主任江沸菠。

“128K大小的Token大约相当于10万个汉字，比一本约7万字的《边城》还要多，AI能一次性把这些内容‘嚼透’，不用中途‘翻页’。”江沸菠介绍，上下文长度以Token为单位计算。一个Token可以是一个英文单词或词缀、一个汉字或词语的一部分。比如，“湘绣”可被拆成“湘”和“绣”两个Token。

“这个数字听起来‘很技术’，但它实际上关乎人工智能如何‘理解’和‘回应’人类。”江沸菠说，这不仅是一次参数提升，更是大语言模型能力边界的又一次突破。

上下文长度决定了大语言模型在一次交互中能“记住”多少内容，包括网友的问题、之前的对话历史、网友提供的参考资料及大语言模型已给出的回答等。就像人在聊天时能回顾说过的话一样，模型的“记忆力”越强，它的回答就越连贯、越精准。

此次升级，意味着大语言模型不仅可以深度处理超长文档，而且在长对话中的表现也更可靠。“这将减少模型‘幻觉’，即胡说八道的风险。”江沸菠介绍，上下文拉长也带来挑战，尤其是对算力的要求上升。而且，模型的记忆仍是“会话级”的，一旦对话重启，它就会“忘记”之前的内容。

行业也在通过探索更高效的架构，比如优化注意力机制、引入外部记忆库等，让模型既能记得多，又不用付出过高的计算代价。

江沸菠举例，大语言模型中的注意力机制就像读书人手里的高亮笔和智能放大镜，读书人不会平均用力地去读桌上所有的书，而是通过“高亮笔”和“智能放大镜”快速扫描整张书桌，并决定应重点关注哪些部分。外部记忆库则给大语言模型配了一个随叫随到的“秘书”，网友一问问题，它就立刻去庞大的资料库里将相关文件找出来、划好重点，并只把这些关键信息递给AI。

责编：杜立

一审：杜立

二审：徐典波

三审：姜鸿丽

来源：湖南日报

我要问