您的位置：首页 > 资讯 >

Transformer后继有模！MSRA提出全新大模型基础架构：推理速度

来源：IT之家 2023-07-18 14:05:03 阅读量：5317

微软大模型新架构，正式向 Transformer 发起挑战！论文标题明晃晃地写道:

Retentive Network:大模型领域 Transformer 的继任者。

论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员，毫不讳言“野心”，大胆放话:

RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些特性使这一基础架构，成为大语言模型中 Transformer 的有力继承者。

而实验数据也显示，在语言建模任务上:

RetNet 可以达到与 Transformer 相当的困惑度
推理速度达 8.4 倍
内存占用减少 70%
具有良好的扩展性

并且当模型大小大于一定规模时，RetNet 表现会优于 Transformer。

Transformer 果真“后继有模”了？具体详情，一起来看。

解决“不可能三角”

Transformer 在大语言模型中的重要性毋庸置疑。无论是 OpenAI 的 GPT 系列，还是谷歌的 PaLM、Meta 的 LLaMA，都是基于 Transformer 打造。

但 Transformer 也并非完美无缺:其并行处理机制是以低效推理为代价的，每个步骤的复杂度为 O；Transformer 是内存密集型模型，序列越长，占用的内存越多。

在此之前，大家也不是没想过继续改进 Transformer。但主要的几种研究方向都有些顾此失彼:

线性 attention 可以降低推理成本，但性能较差；
循环神经网络则无法进行并行训练。

也就是说，这些神经网络架构面前摆着一个“不可能三角”，三个角代表的分别是:并行训练、低成本推理和良好的扩展性能。

RetNet 的研究人员想做的，就是化不可能为可能。

具体而言，RetNet 在 Transformer 的基础上，使用多尺度保持机制替代了标准的自注意力机制。

与标准自注意力机制相比，保持机制有几大特点:

引入位置相关的指数衰减项取代 softmax，简化了计算，同时使前步的信息以衰减的形式保留下来。
引入复数空间表达位置信息，取代绝对或相对位置编码，容易转换为递归形式。

另外，保持机制使用多尺度的衰减率，增加了模型的表达能力，并利用 GroupNorm 的缩放不变性来提高 retention 层的数值精度。

RetNet 的双重表示

每个 RetNet 块包含两个模块:多尺度保持模块和前馈网络(FFN)模块。

保持机制支持以三种形式表示序列:

并行
递归
分块递归，即并行表示和递归表示的混合形式，将输入序列划分为块，在块内按照并行表示进行计算，在块间遵循递归表示。

其中，并行表示使 RetNet 可以像 Transformer 一样高效地利用 GPU 进行并行训练。

递归表示实现了 O 的推理复杂度，降低了内存占用和延迟。

分块递归则可以更高效地处理长序列。

这样一来，RetNet 就使得“不可能三角”成为可能。以下为 RetNet 与其他基础架构的对比结果:

在语言建模任务上的实验结果，进一步证明了 RetNet 的有效性。

结果显示，RetNet 可以达到与 Transformer 相似的困惑度。

同时，在模型参数为 70 亿、输入序列长度为 8k 的情况下，RetNet 的推理速度能达到 Transformer 的 8.4 倍，内存占用减少 70%。

在训练过程中，RetNet 在内存节省和加速效果方面，也比标准 Transformer+FlashAttention 表现更好，分别达到 25-50% 和 7 倍。

值得一提的是，RetNet 的推理成本与序列长度无关，推理延迟对批量大小不敏感，允许高吞吐量。

另外，当模型参数规模大于 20 亿时，RetNet 的表现会优于 Transformer。

研究团队

RetNet 的研究团队，来自微软亚研院和清华大学。共同一作为孙宇涛和董力。

孙宇涛，清华大学计算机系本科，现在在微软亚研院实习。

董力，微软亚研院研究员。他也是此前引发大量关注的“能记住 10 亿 token 的 Transformer”的论文作者之一。

RetNet 论文的通讯作者是韦福如。他是微软亚洲研究院全球研究合伙人，10 亿 token Transformer 亦是来自他的研究团队。

论文地址:

广告声明:文内含有的对外跳转链接，用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

每日推荐

: 戴尔XPS13Plus日本发布：全新设计，可选i5-1240P/i7-1

，据PCWatch报道，戴尔在日本发布了全新的XPS13Plus笔记本，但没有公布价格和出...更多
2022-04-19 16:27:00

: 全球芯片库存不断累积，业界解读出现分歧

据彭博社报道，全球主要芯片制造商产成品库存正加速累积，这一现象引发业界担忧。尽管几家受访企...更多
2022-04-19 16:10:00

: 德龙激光明日申购顶格申购需配市值6.50万元

德龙激光明日开启申购，公司本次发行前总股本为7752.00万股，本次拟公开发行股票2584...更多
2022-04-19 16:01:00

: SA：2021年全球智能手机批发ASP突破300美元大关

StrategyAnalytics的WSS服务最新研究指出，2022年全球智能手机批发收益...更多
2022-04-19 15:31:00

: 第九届“云鼎奖”申报启动，见证行业过往十年辉煌征程！

3月1日起，由第十届全球云计算大会middot;中国站主办方英富曼集团牵头组织的第九届ld...更多
2022-04-19 15:16:00

: 人民币兑日元逼近20大关上热搜：日元贬值势头依然强劲

4月19日，日元兑人民币，一度低至0.0499！截至18日上午12时，日本东京外汇市场日元...更多
2022-04-19 14:41:00

: 中国移动Ⅰ类铅酸蓄电池产品公开集采：总规模约8.778亿Ah

据中国移动发布的集采公告显示，本期集中采购产品为2V、12VⅠ类铅酸蓄电池产品，预估采购规...更多
2022-04-19 12:58:00

: CITE2022观众登记全面开启，享VIP观众只需一步！

乘风破浪，破局爆发2022年5月17日第十届中国电子信息博览会即将于深圳会展中心惊艳亮相1...更多
2022-04-19 12:53:00

资讯

财经

焦点

金融

科技

数据

热点

行情

旅游

Transformer后继有模！MSRA提出全新大模型基础架构：推理速度

戴尔XPS13Plus日本发布：全新设计，可选i5-1240P/i7-1

全球芯片库存不断累积，业界解读出现分歧

德龙激光明日申购顶格申购需配市值6.50万元

SA：2021年全球智能手机批发ASP突破300美元大关

第九届“云鼎奖”申报启动，见证行业过往十年辉煌征程！

人民币兑日元逼近20大关上热搜：日元贬值势头依然强劲

中国移动Ⅰ类铅酸蓄电池产品公开集采：总规模约8.778亿Ah

CITE2022观众登记全面开启，享VIP观众只需一步！

每日焦点

精彩推荐

热点新闻