【48812】国产大模型 RWKV 发布新架构论文：根据矩阵值状况和动态递归的改善

【48812】国产大模型 RWKV 发布新架构论文：根据矩阵值状况和动态递归的改善 - OSCHINA

发布时间：2024-04-16 文章出处: 爱游戏app官网

新架构的RWKV模型在各种基准测验中都完成了具有竞争力的功能，一切 Eagle 和 Finch 模型都根据 Apache 2.0 开源许可证下在 HuggingFace 上发布：

未来 RWKV 的作业将聚集于扩展并改善练习数据集，以及练习和发布更大规划的 Finch (RWKV-6) 模型，例如 7B 和 14B 参数，并经过 Mixture of Experts 下降推理和练习本钱。

Eagle (RWKV-5) 使用赋有体现力的多头矩阵值状况（而不是向量值状况）、从头结构的承受态和额定的门控机制，改善了从 RWKV-4 中学习到的架构和学习衰减进展。

Finch (RWKV-6) 经过引进新的数据相关函数来进一步改善架构的体现才能和灵活性，用于时刻混合和令牌移位模块，包含参数化线性插值。

此外，Finch (RWKV-6) 提出了对低秩自适应函数的新用法，以使可练习的权重矩阵能够以一种上下文相关的方法有效地增强学习到的数据衰减向量。

新数据集 “RWKV World v2” 是一个新的多言语 1.12 T tokens 数据集，取自各种手艺挑选的揭露可用数据源，数据组成约 70% 是英语，15% 是多言语数据，15% 是代码。

RWKV对新架构和模型进行了各类言语建模试验和基准测验，以下为部分基准测验作用展现。

MQAR (Multiple Query Associative Recall) 使命是一种用于评价言语模型的使命，旨在测验模型在屡次查询情况下的联想回忆才能。在这类使命中，模型一定要经过给定的多个查询来检索相关的信息。

MQAR使命的方针是衡量模型在屡次查询下检索信息的才能，以及其对不同查询的适应性和准确性。

能够看出，在 MQAR 使命的准确度测验中， Finch (RWKV-6)在多种序列长度测验中的准确度体现都很安稳，比照 RWKV-4、RWKV-5 和其他非 Transformer 架构的模型有明显的功能优势。

测验成果为， Eagle 在长序列使命上比 RWKV-4 有了明显的改善，而在上下文长度 4096 练习的 Finch (RWKV-6)的体现比 Eagle 更好，能够杰出地主动适应到 20000 以上的上下文长度。

未来 RWKV 团队会对 Finch 的 CUDA 完成做逐渐优化（包含算法改善），带来速度的提高和更大的并行化。

其他测验，如言语模型评价测验基准、Bamboo 基准测验等，能够在论文中找到。

新 RWKV 架构的多言语练习语料库“RWKV World v2”只要 1.12T tokens ，这比 LLaMA2 等今世模型的练习数据量要小得多。因而，RWKV 的下一步重要作业是扩展练习语料库，使其愈加多样化，这是改善模型功能的要害事项。

咱们还方案练习和发布更大版别的 Finch，例如 7B 和 14B 参数，并经过 Mixture of Experts 下降推理和练习本钱，进一步扩展其功能。

本文标题：国产大模型 RWKV 发布新架构论文：根据矩阵值状况和动态递归的改善

返回列表