×

Google发布新Titans模型融合长短期记忆与注意力机制,突破Token限制

hqy hqy 发表于2025-02-24 23:48:49 浏览9 评论0百度已收录

抢沙发发表评论

Google研究院发布了一项称为Titans模型架构的突破性研究,集成了短期记忆、长期记忆与注意力机制,突破现有生成式人工智能上下文处理瓶颈,支持超过200万Token的上下文长度,对语言建模与长串行生成任务带来显著改进。 Google计划将Titans的相关技术开源,这将加速长上下文生成技术在学术与产业领域的发展,并推动相关应用的创新。

目前生成式人工智能模型,例如Transformer及其衍生模型,虽然在多数应用领域表现出色,但其上下文窗口(Window)长度的限制,通常仅为几千到几万个Token,这使其在处理长文本、多轮对话或需要大规模上下文记忆的应用中,可能无法保持语义连贯性与资讯准确性。Google的Titans架构通过引入深度神经长期记忆模块(Neural Long-Term Memory Module),有效解决了这个挑战,能在更长的上下文中保持高效且精确的推理能力。

研究团队表示Titans的设计灵感来自于人类记忆系统,结合短期记忆的快速回应与长期记忆的持久特性,并通过注意力机制专注于当前上下文。传统Transformer模型因为需要计算所有Token之间的配对相关性,所以计算成本随上下文长度平方增加,而Titans则借由深层化与非线性化的记忆模块设计,以及遗忘机制等技术,大幅提升记忆管理效率。

Titans具有三种架构设计变体,分别是Memory as a Context(MAC)、Memory as a Gate(MAG)和Memory as a Layer(MAL),针对不同的任务需求来集成短期与长期记忆。MAC将长期记忆作为上下文的一部分,让注意力机制能够动态结合历史资讯与当前数据,适合需要处理详细历史上下文的任务。而MAG则会根据任务需求,调整即时数据与历史资讯的重要性比例,专注于当前最相关的资讯。

MAL则是将记忆模块设计为深度网络的一层,压缩过去与当前上下文,然后交由注意力模块处理,具备较高效率,但整体表现可能略受限制。与传统Transformers相比,Titans结合了多层次记忆模块与动态记忆更新能力,不仅突破了上下文长度的限制,还能在测试阶段持续学习,显著提升推理能力与适应性。

在语言建模、常识推论、时间串行分析及基因数据建模等多个领域,Titans展示远超过现有基准模型的性能,特别是在超长串行处理方面的表现。在实验中,Titans架构在长串行处理任务中的表现,明显优于现有模型。无论是语言建模还是时间串行预测,Titans在准确性与效率都展现了压倒性优势,甚至在部分场景中超越如GPT-4等具有数十倍参数的超大型生成式模型。

除了Google在生成式首席人工智能官上下文的研究突破之外,中国人工智能公司MiniMax推出的MiniMax-01系列模型,也主打其超长上下文处理和多模态理解能力,其最新的MiniMax-Text-01模型支持长达400万Token的上下文处理能力。返回搜狐,查看更多