Chat with Wiki - AI 评估 GPU 大模型的性能指标，包括输入 token 和输出 token 能力的区分。

Answer

以下是关于 AI 评估 GPU 大模型性能指标中输入 token 和输出 token 能力区分的相关内容：

大模型是通过输入大量语料进行训练，从而获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。在大模型的训练和使用过程中：

训练需要大量计算，GPU 更合适，只有具备大量 GPU 的才有资本训练大模型。
大模型需要大量数据量，几千亿序列（Token）的输入基本是标配。
要用合适的算法让大模型更好理解 Token 之间的关系。
为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
完成上述步骤后，大模型就可以进行如翻译、问答等推导（infer）工作。

Token 是大模型语言体系中的最小单元，人类语言发送给大模型时，会先转换为其自身语言，推理生成答案后再翻译输出。不同厂商的大模型对中文的文本切分方法不同，通常 1Token 约等于 1 - 2 个汉字。大模型的收费计算方法以及对输入输出长度的限制，都是以 token 为单位计量的。

在评估 GPU 大模型性能时，显卡的常规指标很重要。大部分模型默认采用 FP16 的加载方式，因此显卡的性能指标主要关注 FP16 的算力和显存大小。算力影响推理速度，包括输入数据处理和持续吐出数据的速度，会体现在从提示词输入后到第一个输出的 token 的等待时间间隔，以及流式输出下每秒吐字的字数，通常每秒 10 token 以上能获得较好的用户体验。显存大小影响能否装载模型，可通过“参数大小乘 2”简化判断所需显存大小，但实际显存需求还会受其他因素影响。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

走入AI的世界

首先我们给出一些常见缩写和专业词汇的“人话”解释，它们十分基础，但理解他们至关重要。为了讨论更加聚焦，接下来的内容将主要围绕大语言模型为主进行展开（对于其他模态的大模型，我们暂且放放）：LLM：Large language model的缩写，即大语言模型，前面百团大战中的各类大模型，说的都是大语言模型（极其应用）Prompt：中文译作提示词，就是我们输入给大模型的文本内容，可以理解为你和大模型说的话，下达的指令。提示词的质量好坏，会显著影响大模型回答的质量，很多时候如果你觉得大模型回答的太差了，AI味儿太浓了，很可能是你的提示词写的不够好，换言之，不是AI不行，而是你不行?Token：就像人类有着不同的语言，大模型也有着自己的语言体系，如图9，我们发送文本给大模型时，大模型会先把文本转换为他自己的语言，并推理生成答案，而后再翻译成我们看得懂的语言输出给我们。正如人类不同语言都有最小的字词单元（汉语的字/词，英语的字母/单词），大模型语言体系中的最小单元就称为Token。这种人类语言到大模型语言的翻译规则，也是人类定义的，以中文为例，由于不同厂商的大模型采用了不同的文本切分方法，因此一个Token对应的汉字数量也会有所不同，但在通常情况下，1Token≈1-2个汉字。请注意，大模型的收费计算方法，以及对输入输出长度的限制，都是以token为单位计量的。上下文：英文通常翻译为context，指对话聊天内容前、后的内容信息。使用时，上下文长度和上下文窗口都会影响AI大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大token数量，而上下文窗口限制了模型在生成每个新token时实际参考的前面内容的范围（关于这一点，你需要看完3.2中关于GPT的讨论，方能更好理解）

推理用GPU选购指北

购买GPU实体卡，或者云GPU资源必读。[heading2]显卡的常规指标[content]大部分模型默认采用FP16的加载方式。因此显卡的性能指标主要关注FP16的算力，和显存大小。算力通常影响推理速度，包含输入数据的处理，和持续吐出数据的速度。在LLM的运算中，运算速度会很直观的体现在用户体验上：从提示词输入后到第一个输出的token的等待时间间隔，和流式输出下每秒吐字的字数。--通常流式吐字需要在每秒10 token以上能获得还能过得去的用户体验。显存大小直接影响了你是否能装载模型。在开源模型的说明书上通常都会说明转载所需的显存大小。所需显存大小也可以通过简单的“参数大小乘2”计算来简化判断，例如：chatglm3-6B，至少需要6*2=12G的显存资源。实际显存需求当然还会受其他的影响，比如token计算过程中波动的显存量。因此如前例中，chatglm3-6b通常需要有16G甚至24G的显存，如果仅有12G显存，会很快出现OoM的问题。