大模型为什么会有 tokens 限制？

大模型为什么会有 tokens 限制？

article2024/5/11 18:38:17/文章来源:https://blog.csdn.net/2301_78285120/article/details/136074511

人是以字数来计算文本长度，大语言模型（LLM）是以 token 数来计算长度的。LLM 使用 token 把一个句子分解成若干部分。

token 可以是一个单词、一个单词中的一个部分、甚至是一个字符，具体取决于它使用的标记化方法 (tokenization method)。比如：句子 “ChatGPT is great !” 可能会被分割成 [“Chat”, “G”, “PT”, " is", " great", “!”] 这 6 个 tokens。

上下文 token 长度为什么会有限制？有以下3方面的相互制约：文本长短、注意力、算力，这3方面不可能同时满足，也就是存在“不可能三角”，如下图所示：

也就是说：上下文文本越长，越难聚焦充分注意力（Transformer 网络的注意力机制），难以完整理解；注意力限制下，短文本无法完整解读复杂信息；处理长文本需要大量算力，从而提高了成本。

根本原因还是大模型的 Transformer 网络结构的自注意力机制，自注意力机制的计算量会随着上下文长度的增加呈平方级增长，比如：上下文增加32倍时，计算量实际会增长1000倍。这就构成了“不可能三角”中的第一组矛盾：上下文文本长短与注意力。

另外在大模型实际部署时，企业端根本无法提供很大的算力支持，这也就倒逼厂商无论是扩大模型参数还是文本长度，都要紧守算力一关。但现阶段要想突破更长的文本技术，就不得不消耗更多的算力，于是就形成了文本长短与算力之间的第二组矛盾。

大模型如何突破 tokens 限制？

突破大模型的 tokens 限制主要采用以下 3种方法。

方法一：采用 LongLoRA 微调技术重建自注意力计算方式。

通过 LongLoRA 微调技术将长文本划分为不同的组，在每个组里进行计算，而不用计算每个词之间的关系，从而降低计算量，提供生成速度。

方法二：采用 RAG 技术给大模型开“外挂”。

将长文本切分为多个短文本处理，大模型在处理长文本时，会在向量数据库中对短文本进行检索，以此来获得多个短文本回答构成的长文本。每次只加载所需要的短文本片段，从而避开了模型无法一次读入整个长文本的问题。

方法三：提升大模型支持的上下文长度。

对大模型的上下文长度持续优化，比如：以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型为起点，在其基础上进行微调，产生了LONGLLaMA 新模型。该模型很容易外推到更长的序列，在 8K tokens上训练的模型，很容易外推到 256K 窗口大小。

在技术侧这3种方法到底如何实现？可以参与我们下面的技术群

技术交流&资料

技术要学会分享、交流，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型技术交流群，本文完整代码、相关资料、技术交流&答疑，均可加我们的交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、微信搜索公众号：机器学习社区，后台回复：加群
方式②、添加微信号：mlc2060，备注：来自CSDN + 技术交流

通俗易懂讲解大模型系列

做大模型也有1年多了，聊聊这段时间的感悟！
用通俗易懂的方式讲解：大模型算法工程师最全面试题汇总
用通俗易懂的方式讲解：不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！
用通俗易懂的方式讲解：我的大模型岗位面试总结：共24家，9个offer
用通俗易懂的方式讲解：大模型 RAG 在 LangChain 中的应用实战
用通俗易懂的方式讲解：一文讲清大模型 RAG 技术全流程
用通俗易懂的方式讲解：如何提升大模型 Agent 的能力?
用通俗易懂的方式讲解：ChatGPT 开放的多模态的DALL-E 3功能，好玩到停不下来！
用通俗易懂的方式讲解：基于扩散模型（Diffusion）,文生图 AnyText 的效果太棒了
用通俗易懂的方式讲解：在 CPU 服务器上部署 ChatGLM3-6B 模型
用通俗易懂的方式讲解：使用 LangChain 和大模型生成海报文案
用通俗易懂的方式讲解：ChatGLM3-6B 部署指南
用通俗易懂的方式讲解：使用 LangChain 封装自定义的 LLM，太棒了
用通俗易懂的方式讲解：基于 Langchain 和 ChatChat 部署本地知识库问答系统
用通俗易懂的方式讲解：在 Ubuntu 22 上安装 CUDA、Nvidia 显卡驱动、PyTorch等大模型基础环境
用通俗易懂的方式讲解：Llama2 部署讲解及试用方式
用通俗易懂的方式讲解：基于 LangChain 和 ChatGLM2 打造自有知识库问答系统
用通俗易懂的方式讲解：一份保姆级的 Stable Diffusion 部署教程，开启你的炼丹之路
用通俗易懂的方式讲解：对 embedding 模型进行微调，我的大模型召回效果提升了太多了
用通俗易懂的方式讲解：LlamaIndex 官方发布高清大图，纵览高级 RAG技术
用通俗易懂的方式讲解：为什么大模型 Advanced RAG 方法对于AI的未来至关重要？
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成
用通俗易懂的方式讲解：基于 Langchain 框架，利用 MongoDB 矢量搜索实现大模型 RAG 高级检索方法
用通俗易懂的方式讲解：使用Llama-2、PgVector和LlamaIndex，构建大模型 RAG 全流程

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/377794.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【Unity】QFramework通用背包系统优化：使用Odin优化编辑器

【Unity】QFramework通用背包系统优化：使用Odin优化编辑器

前言在学习凉鞋老师的课程《QFramework系统设计：通用背包系统》第四章时，笔者使用了Odin插件，对Item和ItemDatabase的SO文件进行了一些优化，使物品页面更加紧凑、更易拓展。核心逻辑和功能没有改动，整体代码量减少…

阅读更多...

AI-数学-高中-23-三角函数的平移与伸缩

AI-数学-高中-23-三角函数的平移与伸缩

原作者视频：三角函数】11三角函数的平移伸缩（易）_哔哩哔哩_bilibili 左加右减：针对函数中的x变化，上加下减：针对函数f(x)变化。示例1： 示例2： 示例3

阅读更多...

实现远程开机（电脑）的各种方法总结

实现远程开机（电脑）的各种方法总结

一.为什么要远程开机因为工作需要，总是需要打开某台不在身边的电脑，相信很多值友也遇到过相同的问题，出门在外，或者在公司，突然需要的一个文件存在家里的电脑上，如果家里有人可以打个电话回家&#xff0c…

阅读更多...

响应式设计的基本原理和实现方法（超级详细）

响应式设计的基本原理和实现方法（超级详细）

目录一、是什么二、实现方式媒体查询百分比vw/vhrem小结三、总结参考文献一、是什么响应式网站设计（Responsive Web design）是一种网络页面设计布局，页面的设计与开发应当根据用户行为以及设备环境(系统平台、屏幕尺寸、屏幕定向等)进行…

阅读更多...

【状态管理一】概览：状态使用、状态分类、状态具体使用

【状态管理一】概览：状态使用、状态分类、状态具体使用

文章目录一. 状态使用概览二. 状态的数据类型1. 算子层面2. 接口层面2.1. UML与所有状态类型介绍2.2. 内部状态：InternalKvState 将知识与实际的应用场景、设计背景关联起来，这是学以致用、刨根问底知识的一种直接方式。本文介绍状态数据管理&#x…

阅读更多...

【Linux系统学习】3.Linux用户和权限

【Linux系统学习】3.Linux用户和权限

Linux用户和权限 1.认知root用户 1.1 root用户（超级管理员） 无论是Windows、MacOS、Linux均采用多用户的管理模式进行权限管理。在Linux系统中，拥有最大权限的账户名为：root（超级管理员） 而在前期&#…

阅读更多...

海外云手机的核心优势

海外云手机的核心优势

随着5G时代的到来，云计算产业正处于高速发展的时期，为海外云手机的问世创造了一个可信任的背景。在资源有限且需求不断增加的时代，将硬件设备集中在云端，降低个人用户的硬件消耗，同时提升性能，这一点单单就…

阅读更多...

Vue3中路由配置Catch all routes (“*“) must .....问题

Vue3中路由配置Catch all routes (“*“) must .....问题

Vue3中路由配置Catch all routes (“*”) must …问题文章目录 Vue3中路由配置Catch all routes ("*") must .....问题1. 业务场景描述1. 加载并添加异步路由场景2. vue2中加载并添加异步路由(OK)3. 转vue3后不好使(Error)1. 代码2. 错误 2. 处理方式1. 修改前2. 修…

阅读更多...

分布式存储中常见的容错机制：多副本、纠删码（RS、LRC、SHEC）

分布式存储中常见的容错机制：多副本、纠删码（RS、LRC、SHEC）

文章目录分布式存储中常见的容错机制浴缸原理多副本纠删码RSLRCSHEC 总结分布式存储中常见的容错机制浴缸原理在存储领域中，通常我们会使用浴缸曲线来描述硬盘的故障率，如下图。浴缸曲线故障率随着时间变化，主要分为三个阶段&#x…

阅读更多...

设计模式2-对象池模式

设计模式2-对象池模式

对象池模式，Object Pool Pattern，当你的应用程序需要频繁创建和销毁某种资源（比如数据库连接、线程、socket连接等）时，Object Pool 设计模式就变得很有用。它通过预先创建一组对象并将它们保存在池中，以便在…

阅读更多...

数据结构——单链表详解

数据结构——单链表详解

目录前言一.什么是链表 1.概念编辑 2.分类二.单链表的实现(不带头单向不循环链表) 2.1初始化 2.2打印 2.3创建新节点 2.4头插、尾插 2.5头删、尾删 2.6查找 2.7在指定位置之前插入 2.8在指定位置之后插入 2.9删除pos位置 2.10删除pos之后的 2.11销毁链表…

阅读更多...

相机图像质量研究(8)常见问题总结：光学结构对成像的影响--工厂调焦

相机图像质量研究(8)常见问题总结：光学结构对成像的影响--工厂调焦

系列文章目录相机图像质量研究(1)Camera成像流程介绍相机图像质量研究(2)ISP专用平台调优介绍相机图像质量研究(3)图像质量测试介绍相机图像质量研究(4)常见问题总结：光学结构对成像的影响--焦距相机图像质量研究(5)常见问题总结：光学结构对成…

阅读更多...

js中事件代理的解析和应用场景

js中事件代理的解析和应用场景

文章目录一、是什么二、应用场景三、总结一、是什么事件代理，俗地来讲，就是把一个元素响应事件（click、keydown…）的函数委托到另一个元素前面讲到，事件流的都会经过三个阶段： 捕获阶段 -> 目标阶…

阅读更多...

canvas绘制横竖坐标轴（带有箭头和刻度）

canvas绘制横竖坐标轴（带有箭头和刻度）

查看专栏目录 canvas实例应用100专栏，提供canvas的基础知识，高级动画，相关应用扩展等信息。canvas作为html的一部分，是图像图标地图可视化的一个重要的基础，学好了canvas，在其他的一些应用上将会起到非常重…

阅读更多...

NLP_“预训练+微调大模型”模式和Prompt/Instruct模式的异同

NLP_“预训练+微调大模型”模式和Prompt/Instruct模式的异同

文章目录 “预训练微调大模型”的模式以提示/指令模式直接使用大模型“预训练微调大模型”模式和Prompt/Instruct模式的异同小结 “预训练微调大模型”的模式经过预训练的大模型所习得的语义信息和所蕴含的语言知识，很容易向下游任务迁移。NLP应用人员可以根据自己…

阅读更多...

04-Java建造者模式 ( Builder Pattern )

04-Java建造者模式 ( Builder Pattern )

建造者模式摘要实现范例建造者模式（Builder Pattern）使用多个简单的对象一步一步构建成一个复杂的对象一个Builder 类会一步一步构造最终的对象，该 Builder 类是独立于其他对象的建造者模式属于创建型模式，它提供了一种创建对…

阅读更多...

如何从 iPhone 上恢复永久删除的照片

如何从 iPhone 上恢复永久删除的照片

您的 iPhone 上缺少照片吗？讽刺的是，iPhone 的许多高级功能可能正是这个问题如此普遍的原因。幸运的是，还有很多方法可以从 iPhone 恢复已删除的照片，具体取决于您设备的设置方式。本文涵盖了所有这些内容。该过程根据您的具体情…

阅读更多...

MongoDB从入门到实战之MongoDB工作常用操作命令

MongoDB从入门到实战之MongoDB工作常用操作命令

前言： 上一章节我们快速的在Docker容器中安装了MongoDB，并且通过Navicat MongoDB可视化管理工具快速的连接、创建数据库、集合以及添加了文档数据源。这一章节我们主要是了解一下在日常工作中MongoDB一些常用的操作命令。 MongoDB从入门到实战的相关教程…

阅读更多...

并发编程 java锁机制

并发编程 java锁机制

1、什么是锁，为什么需要锁？ 并发环境下，会存在多个线程对同一个资源进行争抢的情况，假设线程A对资源正在进行修改，此时线程B又对同一资源进行了修改，就会导致数据不一致的问题。为了解决这个问题&#xff…

阅读更多...

通过nginx学习linux进程名的修改

通过nginx学习linux进程名的修改

目录 1. 缘起2. 背景知识3. 源码分析3.1 准备工作3.2 设置进程名字 1. 缘起在运行nginx的时候，用ps查看nginx的进程信息，可能的输出如下： root 42169 3105 0 16:51 ? 00:00:00 nginx: master process ./objs/nginx root …

阅读更多...

最新文章