3分钟彻底搞懂什么是 token

几年前在一次工作中，第一次接触到自然语言处理模型 BERT。

当时在评估这个模型的性能时，领导说这个模型的性能需要达到了 200 token 每秒，虽然知道这是一个性能指标，但是对 token 这个概念却不是很清晰。

因为当时接触视觉模型多一些，在视觉模型的性能评估中，有一个关键指标叫做 fps，通俗理解就是一秒钟可以处理的图片数。

fps 数值越大，说明模型吞吐性能越好(关于吞吐的概念可以查看：再也不怕被问吞吐和延时的区别了)。

那么 token 每秒又是什么呢？要搞清楚这个，就得先来了解一下什么是 token。

1、什么是token

在计算机领域中，token 通常是指一串字符或符号，比如微信公众平台的密钥，就被称作一个 token，其实就是一长串的字符。

而在人工智能领域，尤其是自然语言处理(Natural Language Processing, NLP)中， “token” 指的是处理文本的最小单元或基本元素。

它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。

目前很多大模型无论展示能力，还是收费定价，都是以 token 为单位，如 OpenAI 的收费标准为：GPT-4，1k 个 token 收费 0.01刀。

那么如何理解 token 呢？

假设要让一个 AI 模型识别下面的一句话：“I love natural language processing!” 。

模型并不是直接认识这句话是什么意思，而是需要先将这句话拆解成一个个的 token 序列。

比如这个句子可以分解成以下的 tokens：

“I”
“love”
“natural”
“language”
“processing”
“!”

最后的标点符号同样是一个 token，这样模型看到的就是基本的 token 单元，这样有助于 AI 模型理解这个句子的结构和含义。

2、如何拆分 token 呢？

在 NLP 任务中，处理文本之前，需要先将文本进行 tokenization，也就是将文本 token 化，然后再对这些 tokens 进行操作。

目前有很多算法可以完成这个 tokenization 的过程，这里先不展开。

看到这里你可能会问，一个 token不就是一个单词吗？

其实不是这样的，就像我们上面说的，一个 token 可以是一个单词，也可以是一个词组或者一些子词。

比如在 tokenization 阶段，可能会把 “New York City” 这三个单词当做一个 token，因为这三个单词合在一起具有特定的意思，叫做纽约市。

还可能把 “debug” 这个单词看作两个 token，分别为"de" 和 “bug”，这样模型可能知道 “de” 前缀代表“减少”的意思。

如果再遇到诸如 “devalue ”时，就会把它直接分为两个token，分别是 “de”和 “value”，并且可以知道 devalue 代表"减少价值"的意思。

这样的 token 就属于单词中的子词，这样做有很多好处，其中一个好处便是模型不需要记住太多的词。

(photo by AI)

否则，模型可能需要记住"bug"、“debug”，“value”，"devalue"四个token.

而一旦将词分成子词，模型只需要记住"bug"、“value” 和 “de” 这三个 token 即可，而且还可以扩展识别出 "decrease "的意思。

看到这理解了吧，一个 token 可能会代表是一个单词，也可能会是一个词组，或者字符和标点符号。

3、一个有趣的测试

其实有个很简单的方法可以测试一下模型在处理文本时，是否是按照 token 为最小单位来处理的。

我们利用一个大模型，比如 chatGPT 3.5，让他来对一小段文本进行反转操作。

可以看到，句子中的“一个”反转之后仍然是“一个”，而不是"个一"。

这可能就是因为在模型处理时，“一个” 被当做了一个 token 来对待，而这又是一个基本单元，无法再进一步拆分完成反转。

而如果使用 GPT-4 来进行同样的实验，可以看到它已经把这个问题修复了，这是因为 GPT-4 中大幅更新了逻辑推理能力，在更复杂的场景下它甚至会自己边写代码来完成复杂的逻辑的推理。

如果你有chatGPT 的使用环境，可以测试一下看看它是否可以将句子反转过来。

总的来说，token 可以理解为自然语言模型处理文本的最小单位。

它不一定是一个单词，可能是一个词组，也可能是一些前缀如“de”，也可能是一些标点(比如感叹号可能代表更加强烈的感情)等。

知道了 token 是什么，那么 token / s 的意思就很简单了，这个单位就代表了模型一秒钟可以处理的 token 的个数。

这个数字越大，说明模型处理文本的速度更快，无论是识别文本，还是输出文本，用户用起来，也就更加流畅。

最后

为了帮助大家更好的学习人工智能，这里给大家准备了一份人工智能入门/进阶学习资料，里面的内容都是适合学习的笔记和资料，不懂编程也能听懂、看懂，所有资料朋友们如果有需要全套人工智能入门+进阶学习资源包，可以在评论区或扫.码领取哦）~

在线教程

麻省理工学院人工智能视频教程 – 麻省理工人工智能课程
人工智能入门 – 人工智能基础学习。Peter Norvig举办的课程
EdX 人工智能 – 此课程讲授人工智能计算机系统设计的基本概念和技术。
人工智能中的计划 – 计划是人工智能系统的基础部分之一。在这个课程中，你将会学习到让机器人执行一系列动作所需要的基本算法。
机器人人工智能 – 这个课程将会教授你实现人工智能的基本方法，包括：概率推算，计划和搜索，本地化，跟踪和控制，全部都是围绕有关机器人设计。
机器学习 – 有指导和无指导情况下的基本机器学习算法
机器学习中的神经网络 – 智能神经网络上的算法和实践经验
斯坦福统计学习

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

请添加图片描述

人工智能书籍

OpenCV（中文版）.(布拉德斯基等)
OpenCV+3计算机视觉++Python语言实现+第二版
OpenCV3编程入门毛星云编著
数字图像处理_第三版
人工智能:一种现代的方法
深度学习面试宝典
深度学习之PyTorch物体检测实战
吴恩达DeepLearning.ai中文版笔记
计算机视觉中的多视图几何
PyTorch-官方推荐教程-英文版
《神经网络与深度学习》(邱锡鹏-20191121)
…

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

第一阶段：零基础入门（3-6个月）

新手应首先通过少而精的学习，看到全景图，建立大局观。 通过完成小实验，建立信心，才能避免“从入门到放弃”的尴尬。因此，第一阶段只推荐4本最必要的书（而且这些书到了第二、三阶段也能继续用），入门以后，在后续学习中再“哪里不会补哪里”即可。

第二阶段：基础进阶（3-6个月）

熟读《机器学习算法的数学解析与Python实现》并动手实践后，你已经对机器学习有了基本的了解，不再是小白了。这时可以开始触类旁通，学习热门技术，加强实践水平。在深入学习的同时，也可以探索自己感兴趣的方向，为求职面试打好基础。

第三阶段：工作应用

这一阶段你已经不再需要引导，只需要一些推荐书目。如果你从入门时就确认了未来的工作方向，可以在第二阶段就提前阅读相关入门书籍（对应“商业落地五大方向”中的前两本），然后再“哪里不会补哪里”。

在这里插入图片描述
😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/408430.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！