Chat with Wiki - 大模型公司的数据训练成本目前大概是多少

Answer

目前，AI 大模型的训练成本较高。在数据、算力、算法三要素中，算力是基础也是大模型竞争力，但国产芯片在软件适配度、稳定性方面存在不足。大部分采用智能计算中心、自费买英伟达 A800/H800 显卡组成服务器运行、或者用价格更为实惠的服务器云来训练，成本最高的部分是前期的模型训练。

千亿参数模型的报价高达数十万元，由于训练成本高、数据筛选难度大，高昂的售价让很多客户望而却步。在预训练阶段，从互联网上获取大量文本并处理，需要 GPU 集群，通常需要数百万美元的成本。

开源模型可以由任何人托管，包括不承担大模型训练成本（高达数千万或数亿美元）的外部公司。闭源模型能否长久保持优势还是未知数。

Content generated by AI large model, please carefully verify (powered by aily)

References

七大行业的商业化应用

数据、算力、算法三要素当中，算力是基础，也是大模型竞争力，但国产芯片在软件适配度、稳定性方面仍显不足。张新认为，国产芯片与英伟达显卡之间的解耦能力较弱，他们相信可能未来的几个月内逐步用国产芯片去做百亿，甚至更大体量的模型的训练，但算力的累积依然是重要挑战。砺算科技联合创始人、联席CEO孔德海认为，可以从四方面来解决算力矛盾问题：一是协同化，把很多运算可以跑在云端，并根据需求进行协同；二是模型小型化，在高质量数据前提下，小型模型可以在单机上运行；三是再训练，在有限条件下，反复训练有助于提升用户体验；四是融合计算。目前，AI大模型算力主要在训练、推理两个部分，其中成本最高部分是前期的模型训练，大部分采用智能计算中心、自费买英伟达A800/H800显卡组成服务器运行、或者是用价格更为实惠的服务器云来训练。而推理部分算力需求较少、价格不高，大部分模型应用都需要同时建立公有云、私有云两种混合模式，而且需要购买一定的云服务，以更好做大模型应用。最后是价格问题。价格是大模型商业化最重要的因素。由于训练成本高、数据筛选难度大，因此，千亿参数模型的报价高达数十万元，而高昂的售价让很多客户望而却步。戴文渊向钛媒体App表示，不是所有的场景、客户都能接受千亿参数的成本，这个需要客户选择，即便是千亿、万亿的参数只是代表你的最高能力，但最后给到客户的时候，就不一定所有的场景都能技术释放。而垂直大模型的数据生成规模会小一些，场景更易用，Chat的思维能力更高。

生成式AI平台，谁主沉浮？

如果没有谷歌、OpenAI和Stability.AI等公司奠定了杰出的研究和工程基础，我们现在所说的生成式AI将无从存在。创新的模型架构和不断扩展的训练管道使我们均受益于大语言模型（LLMs）和图像生成模型的“超能力”。然而，这些公司的收入规模在其用量和热度面前似乎不值一提。在图像生成方面，得益于其用户界面、托管产品和微调方法组成的操作生态，Stable Diffusion已经见证了爆炸性的社区增长。但Stability仍将免费提供其主要检查点作为核心业务宗旨（愿景是开源）。在自然语言模型中，OpenAI以GPT-3/3.5和ChatGPT占据主导地位，但到目前为止，基于OpenAI构建的杀手级应用仍相对较少，而且其API定价已经下调过一次。这可能只是一个暂时的现象。Stability.AI仍是一家尚未专注于商业化的新兴公司，随着越来越多杀手级应用的构建——尤其当它们被顺利整合进微软的产品矩阵，OpenAI也有成长为庞然大物的潜力，届时将吃走NLP领域一块很大的蛋糕。当模型被大量使用，大规模的商业化自然水到渠成。但阻力依然存在。开源模型可以由任何人托管，包括不承担大模型训练成本（高达数千万或数亿美元）的外部公司。是否有闭源模型可以长久地保持其优势目前还是未知数。我们看见由Anthropic、Cohere和Character.ai等公司自行构建的大语言模型开始崭露头角，这些模型和OpenAI基于类似的数据集和模型架构进行训练，在性能上已经逼近OpenAI。但Stable Diffusion的例子表明，如果开源模型拥有足够高的性能水平和充分的社区支持，那么闭源的替代方案将难以与其竞争。

文章：Andrej Karpathy 亲授：大语言模型入门

因此，我们现在交换数据集，并根据这些问答文档进行训练。而这个过程就叫做微调。一旦你这样做了，你就获得了我们所说的助理模型。所以这个助理模型现在订阅了新的训练文档的形式。例如，如果你给它一个问题，比如，“你能帮我处理这段代码吗？好像有一个错误。print(“hello world).”尽管某个问题并未包含在训练集中，经过微调的模型仍然知道它应该以有助于解答此类问题的助手的形式进行回答，并且它能够做到这一点。因此，模型会从左至右、从上至下地逐字采样，生成的所有单词均是对该查询的响应。这些模型能够将其格式转变为当前有用的助手，这是一个值得关注的现象，同时也是一种基于经验的、尚未完全理解的现象。这是因为尽管它们在微调阶段已经接触到了大量相关文档，但它们仍能够访问并以某种方式利用在预训练阶段积累的全部知识。到目前为止的总结粗略来说，预训练阶段是在互联网上进行的大规模训练，主要关注知识的积累，而微调阶段则是关于所谓的对齐，即将互联网文档的格式转换为问答形式，类似于有用的助手。这两个阶段是获取像ChatGPT这样的模型的两个主要部分。在预训练阶段，你会从互联网上获取大量文本，并需要一个GPU集群来处理这些数据。这些专用于并行处理工作负载的计算机非常昂贵。然后，你将文本压缩到神经网络的参数中，这个过程通常需要数百万美元的成本。这样，你就得到了一个基础模型。由于计算成本极高，这个过程通常只在公司内部进行一次，可能是每年或几个月一次，因为实际操作成本非常高昂。