Chat with Wiki - 神经网络从架构上有哪几种类型，当前流行的大语言模型用哪种类型神经网络，为什么这种神经网络架构更为流行

Answer

神经网络从架构上主要有以下几种类型：

马尔科夫链：用于文本生成。
循环神经网络（RNN）：可应用于文本生成。
长短时记忆网络（LSTMs）：在文本生成等领域发挥作用。
Transformer：当今最流行的模型大多基于此架构，包括流行的大型语言模型，如 GPT-3、GPT-J 或 BERT 等。
Encoder-only：适用于自然语言理解任务，如分类和情感分析，代表模型是 BERT。
Encoder-decoder：同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容，用例包括翻译和摘要，代表是 Google 的 T5。
Decoder-only：更擅长自然语言生成任务，众多 AI 助手采用此结构。

当前流行的大语言模型，如 GPT-3、ChatGPT 等，多采用 Decoder-only 架构的神经网络。这种架构更为流行的原因在于：它更擅长自然语言生成任务，能够根据用户输入生成相应的内容。同时，Transformer 架构具有延长的注意力广度，能够更好地处理长序列数据，提高模型的性能和表现。

Content generated by AI large model, please carefully verify (powered by aily)

References

惊人算力成本背后，AI混战下如何选择基础设施？

生成式AI模型有很多种，推理和训练成本取决于模型的大小和类型。幸运的是，当今最流行的模型大多是基于Transformer（变换器）的架构，其中包括流行的大型语言模型(LLM)，例如GPT-3、GPT-J或BERT。虽然Transformer的推理和学习的精确操作数是模型特定的（请参阅[本文](https://arxiv.org/abs/1706.03762)），但有一个相当准确的经验法则，即取决于模型的参数数量（即神经网络的权重）和输入和输出令牌的数量。令牌本质上是几个字符的短序列。它们对应于单词或单词的一部分（子词或字符）。了解令牌的最好方法是尝试使用公开可用的在线令牌器（例如，OpenAI）进行令牌化。对于GPT-3，令牌的平均长度是4个字符。Transformer的经验法则是，对于具有p个参数且长度为n个令牌的输入和输出序列的模型，前向传递（即推理）大约需要2np浮点运算(FLOP¹)。训练同样的模型，每个令牌大约需要6p*FLOPs（即，额外的反向传递需要四次更多的操作²）。您可以将其乘以训练数据中的令牌数量来估算总训练成本。

2024AIGC法律风险研究报告（更新版）.pdf

文本生成（text generation）涉及使用机器学习(machine learning)模型，根据从现有文本数据中学习的模式生成新的文本。用于文本生成的模型可以是马尔科夫链(Markov Chains)、循环神经网络（RNN）、长短时记忆网络（LSTMs），2AIGC法律风险研究报告以及凭借其延长的注意力广度（attention span）而彻底改变了AI领域的Transformer等。文本生成在自然语言处理、聊天机器人和内容创建领域（自动写作、文本摘要）有许多应用。[heading1]一些具有代表性的海外项目：[content]➢GPT-4（OpenAI）：目前最先进的自然语言生成模型，可用于回答问题、撰写文章等。➢Gemini Ultra（Google）：多模态人工智能模型，采用神经网络架构，对标GPT-4，可用于回答问题、生成代码、处理文本等。➢Claude 3 Opus（Anthropic）：多模态模型，能处理超过1百万token的输入，具有实时聊天、数据处理、分析预测等功能；实现了接近完美的召回率。[heading1]一些具有代表性的国内项目：[content]➢“悟道・天鹰”（北京智源人工智能研究院）：“悟道・天鹰”（Aquila）是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。➢文心一言（百度）：大语言模型，可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。