【Qwen模型】QWEN TECHNICAL REPORT

【Qwen模型】QWEN TECHNICAL REPORT

  • 论文信息
    • 阅读评价
  • Abstract
  • Introduction
  • PreTraining
  • ALIGNMENT(对齐)
  • CODE-QWEN: SPECIALIZED MODEL FOR CODING
  • MATH-QWEN: SPECIALIZED MODEL FOR MATHEMATICS REASONING
  • RELATED WORK
  • CONCLUSION

论文信息

名称内容
论文标题QWEN TECHNICAL REPORT
论文地址https://arxiv.org/abs/2309.16609
发表时间2023-9-28
研究领域NLP, LLM, RoPE, RMSNorm
提出模型Qwen

阅读评价

  千问是阿里用业界最新Tricks开发的大模型。

  在阅读了本篇论文和transformers库里面的Qwen2Model源码之后,我观察到模型用的组件tricks有RoPE(苏剑林提出)、RMSNorm、SwiGLU、SdpaAttention等等;

  个人感受: 现在模型的训练过程都是大同小异。
  从模型效率、性能角度入手,大家倾向于不断优化模型的每个组件,如归一化用RMSNorm、位置编码用RoPE。
  从模型长文本理解能力角度入手,千问采用了几种注意力机制,如LogN-Scaling和window attention。
  从模型的外推能力角度入手,大家对NTK技术、位置编码技术等等也有探索。
  最后,对开源的工作献上致敬!respect!


  以下是对论文每个部分的简单介绍。

Abstract

  文章提出了QWEN系列大语言模型,包括预训练模型Qwen、聊天模型Qwen-Chat、代码生成模型Code-Qwen-Chat、数学专业模型Math-Qwen-Chat等等。

Introduction

  LLM不仅仅局限于语言任务,它也可以作为代理(Agent)存在,从而支持自动驾驶、多模态、执行代码、使用工具等等功能。论文基于最新的trick,并结合了监督微调(SFT)和人类反馈强化学习(RLHF)训练了千问模型。

PreTraining

  在训练数据方面,包括公共网络文档、百科全书、书籍、代码等。并且数据集是多语言的,其中很大部分数据是英语和中文。为了保证数据集的质量,论文用了一系列方法清洗数据。

  在词汇方面,千问用BPE编码来生成token,并得到152K的词汇。

  在模型结构方面,千问是从Llama模型上修改的。具体修改的细节有:

【注】我看Qwen2的源码的注释里面,有一部分是直接复制了Mistral模型的代码。

  1、位置嵌入:使用了旋转位置编码RoPE;
  2、偏置:计算QKV向量的线性层全部添加了偏置;
  3、预先归一化和RMSNorm:归一化放在了最开始,并且采用RMSNorm;

【注】RMSNorm比较简单好懂,建议阅读:【RMSNorm】Root Mean Square Layer Normalization

  4、激活:使用SwiGLU。

【注】SwiGLU相关的激活函数同样好懂,建议阅读:【T5中的激活函数】GLU Variants Improve Transformer

  在外推方面,使用了动态NTK感知插值,还使用了两种注意力机制:LogN-Scaling(Chiang 和窗口注意力。 LogN-Scaling 通过一个取决于上下文长度与训练长度之比的因子重新调整查询和值的点积,确保注意力值的熵随着上下文长度的增长保持稳定。 窗口注意力将注意力限制在有限的上下文窗口中,防止模型关注太远的标记。

【注】动态NTK感知插值我还没看原论文,先不介绍。

  并且千问还为每一层分配不同的窗口大小,对较低层使用较短的窗口,对较高层使用较长的窗口。

ALIGNMENT(对齐)

  Aligment这个词早在InstructGPT论文中就已经出现了,不过把它翻译成“对齐”我对它完全没有啥好印象。

【注】我们在LLM领域的对齐指的是,LLM性能还欠缺,不拟人,需要把它的性能提升(对齐)到人的水平。

  对齐的方法有两种:使用监督微调(SFT)和人类反馈强化学习(RLHF)等对齐技术可以显着提高语言模型进行自然对话的能力。

  监督微调(SFT) 就是拿着多轮对话数据去微调对话模型。其中,Qwen模型采用多种风格注释对话、排除提示模板中格式化的数据、通过注释与暴力、偏见和色情等安全问题相关的数据来优先考虑语言模型的安全性、利用ChatML风格的格式使模型能够有效地区分各种类型的信息等方法来进一步提升性能。

  人类反馈强化学习(RLHF) 比较复杂。建议大家看B站上李沐老师的InstructGPT论文讲解。实现RLHF需要再设计并微调一个奖励模型,并且需要大量高质量的排序数据。包括如何在产品发布后收集用户的反馈信息,如何处理并强化学习,这个是需要学院派和工程派合作解决的问题。

CODE-QWEN: SPECIALIZED MODEL FOR CODING

  介绍了代码生成模型的训练。

MATH-QWEN: SPECIALIZED MODEL FOR MATHEMATICS REASONING

  介绍了数学专业模型的训练。

RELATED WORK

【注】相关工作写最后的论文头一次见。

  LLM
  提了一下GPT、T5、ChatGPT、LLaMA、ChatGLM2。

  对齐
  提了一下SFT和RLHF两种主要的对齐方法。并且说SFT的缺点是全量调参成本高,虽然有PEFT方法(LoRA等),但是PEFT顶多算是平替,无法提高模型性能。

  工具使用和代理
  主要是在说Agent、RAG、LangChain这些概念。

CONCLUSION

  报告介绍了 QWEN 系列大型语言模型,这些模型具有 14B、7B 和 1.8B 参数,并使用 SFT 和 RLHF 等尖端技术进行微调。 此外,QWEN 系列还包括用于编码和数学的专用模型,例如 CODE-QWEN、CODE-QWEN-CHAT 和 MATH-QWENCHAT。 开源了Qwen模型,并且期待大家使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/557299.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

时序深入之CPR(Clock Pessimism Removal)详解

目录 一、CPR概念 二、CPR的计算 三、CPR的开启关闭 四、CPR为0 ​五、参考资料 一、CPR概念 在时序报告的目标时钟路径中,会有一行数据clock pesssimism,第一次见可能都会对这个概念感到疑惑 同样在每条时序路径的summary中,clock pat…

自动化测试Selenium(4)

WebDriver相关api 定位一组元素 webdriver可以很方便地使用findElement方法来定位某个特定的对象, 不过有时候我们需要定位一组对象, 这时候就要使用findElements方法. 定位一组对象一般用于一下场景: 批量操作对象, 比如将页面上的checkbox都勾上. 先获取一组对象, 再在这组…

[最新]访问/加速StackOverFlow的方法

但是有很多问题都是在StackOverFlow上有现成的解决方案,而某度搜索引擎…前一页的回答互相抄袭,看着实在胀眼睛。 话不多说,解决办法: 直接访问插件商店下载插件(最快捷方便,点点就行)&#x…

Linux系统编程——权限概念和权限管理

目录 一,关于Shell 1.1 外壳程序 1.2 shell的作用 1.3 shell运行原理 二,权限概念 2.1 用户与权限 2.2 su(用户切换指令) ​编辑 2.3 提升指令权限和信任名单 三,文件权限 3.1 关于文件权限 3.2 文件访问者…

UG10.如何设置鼠标滚轮操作模型放大缩小方向?

UG10.如何设置鼠标滚轮操作模型放大缩小方向呢?看一下具体操作步骤吧。 首先打开UG10.软件,在主菜单栏选择【文件】下拉菜单,选择【实用工具】。 点击【用户默认设置】。 文章源自四五设计网-https://www.45te.com/45545.html 选中【基本环…

python语言零基础入门——变量与简单数据类型

目录 一、变量 1.创建变量 2.变量的修改 3.变量的命名 (1)常量 (2)标识符 (3)关键字 (4)命名规则 二、简单数据类型 1.变量的数据类型 2.数据类型 3.整型(In…

中断的设备树修改及上机实验(按键驱动)流程

写在前面的话:对于 GPIO 按键,我们并不需要去写驱动程序,使用内核自带的驱动程序 drivers/input/keyboard/gpio_keys.c 就可以,然后你需要做的只是修改设备树指定引脚及键值。 根据驱动文件中的platform_driver中的.of_match_tabl…

C++之类和对象三

目录 拷贝构造函数 定义铺垫 浅拷贝 深拷贝 总结 拷贝构造函数 那在创建对象时,可否创建一个与一个对象一某一样的新对象呢? 定义铺垫 构造函数:只有单个形参,该形参是对本类类型对象的引用(一般常用const修饰)&#xff0c…

2024年华中杯B题论文发布+数据预处理问题一代码免费分享

【腾讯文档】2024年华中杯B题资料汇总 https://docs.qq.com/doc/DSExMdnNsamxCVUJt 行车轨迹估计交通信号灯周期问题 摘要 在城市化迅速发展的今天,交通管理和优化已成为关键的城市运营问题之一。本文将基于题目给出的数据,对行车轨迹估计交通信号灯…

【1577】java网吧收费管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java 网吧收费管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0…

一篇文章搞定Jenkins自动化部署JDK17+SpringBoot3.X+新版AlibabaCloud打包Docker镜像推送私有镜像仓库

🚀 作者 :“二当家-小D” 🚀 博主简介:⭐前荔枝FM架构师、阿里资深工程师||曾任职于阿里巴巴担任多个项目负责人,8年开发架构经验,精通java,擅长分布式高并发架构,自动化压力测试,微服务容器化k…

Redis中的订阅发布(二)

订阅与发布 订阅频道 每当客户端执行SUBSCRIBE命令订阅某个或某些频道的时候,服务器都会将客户端与被订阅的频道 在pubsub_channels字典中进行关联。 根据频道是否已经有其他订阅者,关联操作分为两种情况执行: 1.如果频道已经有其他订阅者&#xff0c…

微信小程序echart图片不显示 问题解决

目录 1.问题描述:2.解决方法:2.1第一步2.2第二步2.2效果 小结: 1.问题描述: echart图片不显示 图片: 2.解决方法: 2.1第一步 给wxml中的ec-canvas组件添加宽高样式:style"width: 100%…

图文教程 | Git安装配置、常用命令大全以及常见问题

前言 因为多了一台电脑,平时写一些代码,改一些文件,用U盘存着转来转去特别麻烦。于是打算用Git管理我的文件,方便在两个终端之间传输数据啥的。也正好给新电脑装好Git。 📢博客主页:程序源⠀-CSDN博客 &…

MathType安装导致的Word粘贴操作出现运行时错误‘53’:文件未找到:MathPage.WLL

MathType安装导致的Word粘贴操作出现运行时错误‘53’:文件未找到:MathPage.WLL 解决方案 1、确定自己电脑的位数; 2、右击MathType桌面图标,点击“打开文件所在位置”,然后找到MathPage.WLL ,复制一份进行…

深度 | 践行绿色健康可持续发展,这家企业提供了价值范本

文 | 螳螂观察 作者 | 余一 近段时间以来,小米SU7热度一直不减,在展露小米强大品牌号召力的同时,也侧面体现出了当前消费者对于新能源汽车的喜爱。 而消费者选择新能源汽车时,环保因素也起到了至关重要的作用。像前几日&#x…

PolarDB闪电助攻,《香肠派对》百亿好友关系实现毫秒级查询

云原生数据库PolarDB分布式版(PolarDB for Xscale,简称PolarDB-X)有极强的线性扩展能力,能够多写多读;它的全局索引能力,是分布式改造的利器,成功解决了传统分布式方案中多维度查询的难题&#…

探究欧拉恒等式的美学与数学威力

正如老子所述,“道生一,一生二,二生三,三生万物”,数学作为人类认知自然法则的语言,其数系的不断发展象征着对世界理解的深化。从自然数经由分数、无理数至复数,复数虽看似反直觉,却…

探索AI大模型:理论、技术与应用

引言 近年来,随着深度学习技术的迅猛发展,AI大模型已经成为人工智能领域的重要研究方向和热点话题。AI大模型,指的是拥有巨大参数规模和强大学习能力的神经网络模型,如BERT、GPT等,这些模型在自然语言处理、计算机视觉…

es安装中文分词器

下载地址,尽量选择和自己本地es差不多的版本 https://github.com/infinilabs/analysis-ik/releases 下载好,解压,把里面的文件放到es的plugins/ik目录下 把plugin-descriptor.properties文件里的es版本改成自己对应的 再启动es,能…
最新文章