Chat with Wiki - 大小模型协同有哪些数据

Answer

大小模型协同的数据来源广泛且多样，主要包括以下方面：

大模型方面：
- 预训练数据非常大，往往来自于互联网，涵盖论文、代码以及可爬取的公开网页等，通常采用 TB 级别的数据进行预训练。
- 像 GPT-3 这样的大模型参数众多。
- 例如 Gemini 模型，其预训练数据集使用来自网络文档、书籍、代码的数据，并包括图像、音频和视频数据。
小模型方面：
- 针对特定任务进行训练，数据主要由与任务相关的内容组成，如专门识别猫或狗的模型，其训练数据主要是猫猫狗狗的照片。

大模型具有更广泛的应用范围和更多的通识知识，能处理多种不同任务；小模型在特定任务上表现出色。但大模型的知识来源于有限的训练数据，并非无限，且知识库不会自动更新，在某些特定或专业领域的知识可能不够全面。

Content generated by AI large model, please carefully verify (powered by aily)

References

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。

十七问解读生成式人工智能

“小模型”确实有其优势，尤其是在特定任务上表现得非常出色。比如，如果你训练了一个专门识别猫?或狗?的模型，它在这个任务上可能非常精准。然而，这个模型就无法用于其他任务（因为用来训练模型的数据主要是由猫猫狗狗的照片组成的）。而“大模型”则不同，它像一个多功能的基础平台（有时也被称为“基座模型”）。大模型可以处理多种不同的任务，应用范围非常广泛，并且拥有更多的通识知识。这就是为什么尽管“小模型”在某些特定领域内表现优异，我们仍然需要“大模型”的原因：它们能够在更广泛的场景中提供支持和解决问题。[heading1]问题十一、大模型拥有无限知识吗？[content]大模型并不拥有无限知识。大模型的知识来源于它们在训练过程中接触到的数据，而这些数据是有限的。虽然大模型可以处理和生成大量的信息，但它们的知识来自于它们所训练的数据集，这些数据集虽然庞大，但仍然是有限的。因此，大模型只能回答它们在训练过程中见过或类似的问题。大模型在训练之后，其知识库不会自动更新。也就是说，它们无法实时获取最新的信息，除非重新训练或通过其他方式更新模型。大模型在某些特定或专业领域的知识可能不够全面，因为这些领域的数据在训练集中可能较少。[heading1]问题十二、大型语言模型的运作机制是什么？[content]大型语言模型的运作机制主要是通过大量的数据训练来学习语言的结构和模式，然后根据输入生成相应的文本。这些模型通过阅读大量的文本数据，学习到语言中的词汇、语法、句子结构以及上下文关系。当你给它一个输入时，它会根据这些学习到的知识生成一个连贯的回答。所以它永远在猜测下一个字符将要生成什么，类似于词语接龙游戏。

Gemini report 中文翻译

Gemini模型是在一个既包含多模态又包含多语言的数据集上进行训练的。我们的预训练数据集使用来自网络文档、书籍和代码的数据，并包括图像、音频和视频数据。我们使用SentencePiece分词器（Kudo和Richardson，2018），发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇，并进而提高模型性能。例如，我们发现Gemini模型可以高效地标记非拉丁脚本，这反过来可以提高模型质量以及训练和推理速度。训练最大模型所使用的标记数量是根据Hoffmann等人（2022）的方法确定的。为了在给定的推理预算下提高性能，较小的模型被训练了更多的token，类似于（Touvron等人，2023a）提倡的方法。我们对所有数据集进行过滤，使用启发式规则和基于模型的分类器。我们还进行安全过滤以删除有害内容。我们从训练语料库中筛选出我们的评估集。通过对较小的模型进行消融实验，确定了最终的数据混合和权重。我们在训练过程中进行分阶段训练，通过增加领域相关数据的权重来改变混合组合，直到训练结束。我们发现数据质量对于一个高性能的模型至关重要，并且相信在寻找预训练的最佳数据集分布方面还存在许多有趣的问题。