念念挑战 Transformer 的新架构有许多,来自谷歌的"正宗"剿袭者 Titan 架构更受讲理。
英伟达把测试期间计较(Test-time Computing)称为大模子的第三个 Scaling Law。
OpenAI 把它用在推理(Reasoning),谷歌此次把它用在了追忆(Memory)。
一作Ali Behrouz暗示:
Titans 比 Transformers 和当代线性 RNN 更高效,而且可以灵验地彭胀到向上 200 万高下文窗口,性能比 GPT4、Llama3 等大模子更好。
他还解释了这篇商榷的动机,团队觉得 Transformer 中的提神力机制进展为短期追忆,因此还需要一个能记取很久以前信息的神经追忆模块。
提到追忆,民众可能会念念到 LSTM、Transformer 等经典模子,它们从不同角度模拟了东谈主脑追忆,但仍有局限性:
要么将数据压缩到固定大小的隐情景,容量有限
要么可以捕捉长程依赖,但计较支拨随序列长度平素级增长
而且,只是记取查考数据在骨子使用时可能莫得匡助,因为测试数据可能在散布外。
为此,Titans 团队筹算将畴前信息编码到神经网罗的参数中,查考了一个在线元模子(Online meta-model),该模子学习如安在测试时记取 / 健忘特定数据。
他们从神尽情态学中吸收灵感,假想了一个神经恒久追忆模块,它模仿了东谈主脑旨趣:
预念念除外的事件(即"惊喜")更容易被记取。
惊喜进度由追忆模块对输入的梯度来意想,梯度越大证实输入越出东谈主预念念。
引入动量机制和淡忘机制,前者将短期内的惊喜集会起来造成恒久追忆,后者可以擦除不再需要的旧追忆,堤防追忆溢出。
追忆模块由多层 MLP 构成,可以存储深脉络的数据详尽,比传统的矩阵追忆更雄壮。
这种在线元学习范式,幸免了模子记取无谓的查考数据细节,而是学到了怎么把柄新数据转机我方,具有更好的泛化智商。
另外,团队还考据了这个模块可以并行计较。
怎么将这个雄壮的追忆模块融入深度学习架构中呢?
为此,Titans 提议了三种变体:
MAC,追忆手脚高下文
将恒久追忆和捏久追忆(编码任务知识的不变参数)手脚现时输入的高下文,一谈输入给 attention。
MAG,追忆手脚门
在追忆模块和滑动窗口 attention 两个分支上进行门控交融。
MAL,追忆手脚层
将追忆模块手脚颓唐的一层,压缩历史信息后再输入给 attention。
在履行中,发现每种模范齐有我方的优过错。
Titans 在谈话建模、学问推理、期间序列预计等任务上全面卓绝 Transformer 和 Mamba 等各路架构的 SOTA 模子。
而且仅靠恒久追忆模块(LMM,Long-term Memory Module)自己,就在多个任务上打败基线。
施展了即使莫得短期追忆(也即是 Attention),该机制也具备颓唐学习的智商。
在长文本中寻找细粒度痕迹的"大海捞针"测试中,序列长度从 2k 加多到 16k,准确率保捏在 90% 傍边。
但团队觉得,这些通用的测试照旧体现不出 Titans 在长文本上的上风。
在另一项需要对散布在极长文档中的事实作念推理的任务中,Titans 进展向上了 GPT4 、Mamba 等,以及 Llama3.1 + RAG 的系统。
另外皮期间序列预计、DNA 序列建模等特定任务中,Titans 也获取可以的进展。
三位作家来自 Google Research NYC 算法和优化团队,当今还没被并吞到 Google DeepMind。
一作是 Ali Behrouz 来自康奈尔大学的实习生。
钟沛林是清华姚班学友,博士毕业于哥伦比亚大学,2021 年起加入谷歌任商榷科学家。
2016 年,钟沛林本科技巧的一作论文被顶会 STOC 2016 继承,是初度有中邦本科生在 STOC 上发表一作论文。
领队的 Vahab Mirrokni 是 Google Fellow 以及 VP。
团队暗示 Titians 是用 Pytorch 和 Jax 中收尾的,筹算很快提供用于查考和评估模子的代码。
论文地址:
https://arxiv.org/abs/2501.00663v1
参考和谐:
[ 1 ] https://x.com/behrouz_ali/status/1878859086227255347九游体育app娱乐