Chat with Wiki - 大模型辩论

Answer

在大模型的相关辩论中：

邬嘉文认为在 CES 2024 上，李飞飞争论 LLM 和 AIGC 名称不能混用，吴恩达觉得在公众传播中没关系，李飞飞难以接受，可能是因为这模糊了大模型的本质。在公众传播层面，AIGC 指用 Stable Diffusion 或 Midjourney 生成图像内容，后来泛指用 AI 生成音乐、图像、视频等内容；LLM 指 NLP 领域的大语言模型，如 ChatGPT；GenAI 是生成式人工智能模型，国内官方政策文件使用这个词相对科学，涵盖了 LLM 和 AIGC；AGI 指通用人工智能，部分人觉得 LLM 具有 AGI 潜力，LeCun 反对。公众传播一般会混用上述名词，其底层是 Transformer 结构。Transformer 底层是 function loss 损失函数，是一个大参数（千亿级别）的回归方程，能在一定 prompt condition 情况下，repeat 曾经出现过的数据内容实现“生成”能力。大语言模型是一个 perfect memory，repeat 曾经出现的内容，与 Alpha Go 有差异，Alpha Go 是增强学习模型，有推理能力，而大语言模型这块很弱，Transformer 决定 LLM 是一个生成式模型。
Ranger 针对唱衰 AI 大模型的风潮指出，唱衰者认为大模型仅能实现如 chatbox、文生图等功能，难以找到商用场景且存在幻觉问题，同时算力有成本。但这种观点建立在大模型后续仅能用于特定功能且算力费用持续居高不下这两个前提上，而实际上，今年内算力成本问题将不再是难题，并且对于大模型能带来的改变，需要明晰其运作原理，期望通过简单描述帮助非技术人员理解大模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

作者：Garman邬嘉文原文：https://mp.weixin.qq.com/s/b7Cctfgb4w5LCCBrSYIlrg[heading2]Transformer决定边界[content]在CES 2024，李飞飞在争论LLM和AIGC名称不能混用，吴恩达觉得在公众传播没关系。李飞飞觉得难以接受，个人猜测是它模糊了大模型的本质。在公众传播层面：AIGC：指用Stable Diffusion或Midjourney生成图像内容，后来泛指用AI生成音乐、图像、视频等内容。LLM：指NLP领域的大语言模型，如ChatGPT。GenAI：生成式人工智能模型，国内官方政策文件使用这个词相对科学，涵盖了LLM和AIGC。AGI：指通用人工智能，部分人觉得LLM具有AGI潜力，LeCun反对。公众传播一般会混用上述名词，但底层是transformer结构。（stable diffusion原采用LDM+UNet，后来改为DiT）而transformer底层是function loss损失函数Transformer是一个大参数（千亿级别）的回归方程。回归方程的Function loss拟合A to B mapping关系，实现数据集的压缩与还原。Transformer是在一定prompt condition情况下，repeat曾经出现过的数据内容，实现“生成”能力。大语言模型的智能体验在两个数据集压缩后，能解释两个数据集之间地带的“连续”能力。（Ilya）所以大语言模型是一个perfect memory，repeat曾经出现的内容。它与Alpha Go差异：Alpha Go是一个增强学习模型，学习结果会调整模型自身参数Alpha Go有推理能力，但大语言模型这块很弱。Transformer决定LLM是一个生成式模型。

邬嘉文：大模型应用层

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

[heading2]一、写在前面[content]写这篇文章的初衷，源于近期涌起的唱衰AI大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后，便断言大模型是一场“骗局”，是资本操控的闹剧。同时，近来不管是投资领域还是各大厂，似乎都开始谨慎衡量做大模型这件事的投资回报率（ROI）。难道大模型当真不像去年众人所认定的那样，是一场所谓的“革命”吗？唱衰大模型的人，大多持有这样的观点：他们觉得大模型仅能实现像chatbox、文生图、图生图、生视频、生音频之类的功能，难以找到可商用的场景，更别说其中部分功能还可能存在幻觉问题。同时，大模型的算力也是有成本的，而且价格不低。所以问题就出现了，即我们做出了一个个看似出色的ai产品，用户日活量或许也很高，但高日活带来的是高机器算力费用，而这笔费用又无法从活跃用户身上获取，所以这个商业模式就难以形成闭环了。所以这种理解倒不能说是错误的，但这是建立在两个前提之上的。第一，大模型确实后续也仅能用在聊天以及生成图片、文字、视频了；第二，算力的费用会持续居高不下。但在我看来，这两点都是不成立的。首先关于第二点的算力的问题，已经有许多解决方案了，不论是模型蒸馏，还是苹果的端云方案等等，我认为今年内算力成本问题将不再是难题。那么第一点，其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变，我认为首先是先需要明晰其运作原理究竟是怎样的。实际上，我也看过市面上很多有关大模型的科普文章，坦白讲，对于非技术人员而言，理解起来颇具难度。所以，我期望这篇文章能通过最为直白、最为简单的描述，帮助各位产品同学，理解何为大模型，大模型是如何运作的，大模型究竟带来了什么，以及我们究竟该去怎么看待这次大模型的浪潮。