Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

判别式CNN到生成式大模型的发展

Answer

判别式 CNN 到生成式大模型的发展经历了以下几个阶段：

早期发展（2014 年以前）：最初的文生图尝试集中在将简单文本描述转化为图像。这些早期方法依赖于基本的图像处理技术和简单的模型，效果有限，生成的图像质量通常不高。
深度学习的崛起（2014 年-2018 年）：随着深度学习的发展，尤其是卷积神经网络（CNN）的成功应用，文生图模型开始采用神经网络来改进图像生成的质量和多样性。在这一时期，如 GAN（生成对抗网络）及其变体层出不穷，开始被用于文生图任务，展示了生成更逼真图像的潜力。
引入 Transformer（2019 年-2021 年）：Transformer 架构，原本在 NLP 领域取得巨大成功，开始被应用于文生图模型，提高模型处理复杂文本和生成高质量图像的能力。如 OpenAI 的 DALL-E 模型，采用了 Transformer 结构来生成与文本描述匹配的图像，成为这一时期的标志性进展。与此同时，以 DDPM 为代表的工作，为 Diffusion Model 奠定了理论基础，众多基于 Transformer 和 Diffusion Model 的研究成果从 2021 下半年开始如雨后春笋般涌现。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

质朴发言：大模型未来发展：RAG vs 长文本，谁更胜一筹？｜Z 沙龙第 8 期

质朴发言：一文纵览文生图/文生视频技术发展路径与应用场景｜Z 研究第 1 期

8. 创建图像描述模型

融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」

Others are asking

大模型和小模型区别是什么？是否大模型都属于生成式AI，小模型属于判别式AI，为什么大模型有幻觉小模型没有？

大模型和小模型的区别主要体现在以下几个方面： 1. 规模和参数数量：大模型通常具有更多的参数和更复杂的架构，能够处理更大量和更复杂的数据。 2. 能力和性能：大模型在语言理解、生成等任务上往往表现更出色，能够生成更准确、丰富和连贯的内容。 3. 应用场景：大模型适用于广泛的通用任务，而小模型可能更专注于特定的、较狭窄的领域。并非大模型都属于生成式 AI，小模型都属于判别式 AI。生成式 AI 能够生成新的内容，如文本、图片等；判别式 AI 则主要用于对输入进行分类或判断。模型的分类与其大小并无直接的必然联系。大模型出现幻觉的原因主要是其通过训练数据猜测下一个输出结果，可能会因错误或不准确的数据导致给出错误的答案。而小模型相对来说数据量和复杂度较低，出现幻觉的情况相对较少，但这并非绝对，还取决于模型的训练质量、数据的准确性等多种因素。优质的数据集对于大模型减少幻觉现象非常重要。

判别式与生成式

生成式模型和判别式模型在底层模式上存在普遍性和差异性。生成式模型方面：核心之一在于采用更高效的 token 化，language 或 code 作为 token 化的承载媒介，是人类认知推理、链接物理世界、抽象化表达的重要且广泛的概念化空间。例如在 GAN 中，生成器不断生成逼真的假图像，与判别器互相博弈优化。常见的生成式模型包括 GAN、Flowbased models（其在 AIGC 时代的作用未充分显现）、VAE（是 Stable Diffusion 模型的核心结构之一）等。判别式模型方面：在“判别侧”即模型输出“Y”侧对于生成式模型来说属于其子集，某种程度上不仅是“Y”，模型输入“X”侧及任务本身也属于生成式模型的子集。通过学习台湾大学李宏毅教授的《生成式 AI 导论 2024》课程，可以更全面地了解生成式 AI 的基本概念、发展历程、技术架构、应用场景等内容，包括生成式模型的基本结构、训练方法、评估指标，生成式对话的概念、系统架构和关键技术，预训练语言模型的发展、优缺点及在生成式 AI 中的应用，以及生成式 AI 面临的挑战和未来发展趋势。

浅谈“生成式人工智能在中职实训课的应用”

生成式人工智能在中职实训课的应用：生成式人工智能是一种能够生成新的、未曾存在内容的人工智能技术，所生成的内容可以是多模态的，包括文本（如文章、报告、诗歌等）、图像（如绘画、设计图、合成照片等）、音频（如音乐、语音、环境声音等）、视频（如电影剪辑、教程、仿真等）。其应用场景广泛，例如：文档摘要：将长篇文章或报告总结为简短、精准的摘要。信息提取：从大量数据中识别并提取关键信息。代码生成：根据用户的描述自动编写代码。营销活动创建：生成广告文案、设计图像等。虚拟协助：例如智能聊天机器人、虚拟客服等。呼叫中心机器人：能够处理客户的电话请求。生成式人工智能的工作方式如下： 1. 训练阶段：通过从大量现有内容（文本、音频、视频等）中学习进行训练，训练的结果是一个“基础模型”。 2. 应用阶段：基础模型可以用于生成内容并解决一般性问题，还可以使用特定领域的新数据集进一步训练，以解决特定问题，从而得到一个量身定制的新模型。 Google Cloud 提供了相关工具，如 Vertex AI 是端到端机器学习开发平台，旨在帮助开发人员构建、部署和管理机器学习模型；Generative AI Studio 允许应用程序开发人员或数据科学家快速制作原型和自定义生成式 AI 模型，无需代码或代码量少；Model Garden 是一个平台，可以让用户发现 Google 的基础和第三方开源模型，并与之交互，它提供了一组 MLOps 工具，用于自动化机器学习管道。在教育领域，从 AI 助教到智慧学伴的应用探索中，以“移动教学与促动”课程实习周为例，让教育学专业的学生了解和尝试运用教育 APP、二维码、教育游戏等技术方式开展移动教学。课程实习需要在 5 天内让非技术背景的学生分组设计课程并展示，由于学生众多，教师难以给予个性化指导，而 AI 在一定程度上补足了学生缺乏的经验。

生成式人工智能原理是什么

生成式人工智能的原理主要包括以下几个方面： 1. 基于深度学习技术和机器学习算法：通过大规模的数据集训练深度神经网络模型，学习各种数据的规律和特征，从而实现对输入数据的分析、理解和生成。 2. 监督学习：例如在生成文本时使用大语言模型，通过监督学习不断预测下一个词语，经过大量的数据训练，从而生成新的文本内容。这通常需要千亿甚至万亿级别的单词数据库。 3. 从大量现有内容中学习：包括文本、音频和视频等多模式的内容，这个学习过程称为训练，其结果是创造“基础模型”，如为聊天机器人提供支持的大型语言模型（LLM）。基础模型可用于生成内容并解决一般问题，也可以使用特定领域的新数据集进一步训练以解决特定问题。

生成式AI的教育重构价值

生成式 AI 在教育领域具有重要的重构价值，主要体现在以下几个方面： 1. 为教师减负：通过复杂的算法、模型和规则，从大规模数据集中学习，创造新的原创内容，帮助教师减轻工作负担。 2. 创新教学方式：例如让历史人物亲自授课，知识获取不再受时空限制，提高教育效率和质量，增强学生学习兴趣。 3. 个性化教育：根据学生的学习情况、兴趣和偏好提供定制化的学习计划和资源，实现因材施教，满足学生学习需求，提高学习成果，缓解教育资源不平等问题。 4. 角色多样化：授课教师、游戏玩家、情感伴侣等服务都可以被 AI 重构。 5. 促进学生成长：人工智能生成的虚拟角色可以作为数字陪伴，给予孩子社会奖励，促进其成长和提高学习成绩。

Stable Diffusion、MidJourney、DALL·E 这些生成式AI工具有什么区别

Stable Diffusion、Midjourney 和 DALL·E 这三个生成式 AI 工具主要有以下区别： 1. 开源性：Stable Diffusion 是开源的，用户可以在任何高端计算机上运行。 2. 学习曲线：Midjourney 的学习曲线较低，只需键入特定的提示就能得到较好的结果。 3. 图像质量：Midjourney 被认为是 2023 年中期图像质量最好的系统。 4. 应用场景：Stable Diffusion 特别适合将 AI 与来自其他源的图像结合；Adobe Firefly 内置在各种 Adobe 产品中，但在质量方面落后于 DALL·E 和 Midjourney。 5. 训练数据：这些工具都是使用大量的内容数据集进行训练的，例如 Stable Diffusion 是在从网络上抓取的超过 50 亿的图像/标题对上进行训练的。 6. 所属公司：DALL·E 来自 OpenAI。在使用方面： 1. Stable Diffusion 开始使用需要付出努力，因为要学会正确制作提示，但一旦掌握，能产生很好的结果。 2. DALL·E 已纳入 Bing（需使用创意模式）和 Bing 图像创建器，系统可靠，但图像质量比 Midjourney 差。 3. Midjourney 需要 Discord，使用时需键入特定格式的提示。

生成式人工智能的提示词工程

生成式人工智能的提示词工程是一门新兴学科，在生成式 AI 模型中具有重要作用。提示词是用户与模型沟通愿望的文本界面，适用于图像生成模型（如 DALLE3、Midjourney）和语言模型（如 GPT4、Gemini）等。它可以是简单的问题，也可以是复杂的任务，包括指令、问题、输入数据和示例，以引导 AI 的响应。提示词工程的核心是制作能实现特定目标的最佳提示词，这不仅要指导模型，还需深刻理解模型的能力和局限性及所处上下文。例如，在图像生成模型中是对期望图像的详细描述，在语言模型中可能是复杂查询。提示词工程不仅是构建提示词，还需结合领域知识、对 AI 模型的理解及系统化方法为不同情境定制提示词，可能包括创建可根据数据集或上下文程序化修改的模板。此外，提示词工程是迭代和探索的过程，类似于传统软件工程实践，如版本控制和回归测试。该领域发展迅速，有潜力改变机器学习的某些方面。在商业和社会中，提示词工程师是被炒作的职位，实际可能承担了机器学习工程师的部分职责。提示词工程是一切生成式 AI 的基础，不管用于学习、写作、绘画、编程还是玩音乐等。在使用提示词时，要记住几个基本关键点： 1. 角色/身份：告诉 AI 它需要扮演的身份，提升其“职业素养”。 2. 目标/任务以及背景：所有对话都有目的性，要交代目标背后的逻辑，包括为什么要实现目标、希望达到的结果等。

生成式 AI（Generative AI）是一种基于深度学习技术，利用机器学习算法从已有数据中学习并生成新的数据或内容的 AI 应用。其工作原理是通过大规模的数据集训练深度神经网络模型，学习各种数据的规律和特征，实现对输入数据的分析、理解和生成。 AIGC（AI generated content）意为人工智能生成内容，又称为生成式 AI。例如 AI 文本续写，文字转图像的 AI 图、AI 主持人等，都属于 AIGC 的应用。能进行 AIGC 的产品项目和媒介很多，包括语言文字类（如 OpenAI 的 GPT、Google 的 Bard、百度的文心一言等）、语音声音类（如 Google 的 WaveNet、微软的 Deep Nerual Network、百度的 DeepSpeech 等）、图片美术类（如早期的 GEN、去年大热的扩散模型带火的 Midjourney、先驱者谷歌的 Disco Diffusion、OpenAI 的 Dalle·2 以及 stability ai 和 runaway 共同推出的 Stable Diffusion 等）。 SD 是 Stable Diffusion 的简称，是由初创公司 StabilityAI、CompVis 与 Runway 合作开发，2022 年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像，是一种扩散模型（diffusion model）的变体，叫做“潜在扩散模型”（latent diffusion model;LDM）。其代码模型权重已公开发布，可以在大多数配备有适度 GPU 的电脑硬件上运行。当前版本为 2.1 稳定版（2022.12.7）。源代码库：github.com/StabilityAI/stablediffusion 。国内目前主要是在《网络安全法》《数据安全法》以及《个人信息保护法》的框架下，由《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法（试行）》共同监管 AIGC 行业。 Gen AI/Generative AI 是“生成式人工智能”正式称呼，是一种能够生成新内容的人工智能技术，比如文本、图像、音乐等。而 AIGC 指的是由人工智能生成的内容的创作方式，实际上是 Generative AI 的应用结果。 ChatGPT 在 2022 年宣发时，OpenAI 称其是一种模型，但在官网的帮助页面中，称其是一种服务。目前我们所熟知的 ChatGPT 逐渐演变成了一种可以兼容多种 GPT 模型的聊天应用（服务）。

学习SRCNN的路径可以是什么

很抱歉，目前知识库中没有关于学习 SRCNN 路径的相关内容。但一般来说，学习 SRCNN 可以从以下几个方面入手：首先，深入了解卷积神经网络（CNN）的基础知识，包括卷积层、池化层、激活函数等。其次，查阅相关的学术文献和研究报告，以获取关于 SRCNN 的详细原理和实现方法。还可以在网上搜索相关的教程和课程资源，例如在线课程平台、技术博客等。同时，尝试使用相关的深度学习框架，如 TensorFlow、PyTorch 等，进行实践和代码实现。最后，参与相关的技术社区和论坛，与其他研究者和开发者交流经验和心得，以加深对 SRCNN 的理解和应用。

学习SRCNN可以通过怎样的路径

很抱歉，目前知识库中没有关于学习 SRCNN 路径的相关内容。但一般来说，学习 SRCNN 可以从以下几个方面入手：首先，深入了解卷积神经网络（CNN）的基础知识，包括卷积层、池化层等概念。其次，查阅相关的学术文献和研究报告，以获取关于 SRCNN 模型的详细架构和原理。还可以参考在线的课程和教程，一些知名的在线教育平台可能会有相关的内容。同时，实践是关键，可以通过使用相关的数据集进行模型的训练和优化，来加深对 SRCNN 的理解和掌握。

所以我可以理解为CNN是一种图像分类识别的AI算法技术吗

卷积神经网络（CNN）是一种用于图像分类识别的 AI 算法技术。 ImageNet 成为深度神经网络革命的首选数据集，其中由 Hinton 领导的 AlexNet 就是基于卷积神经网络（CNN）。自 2012 年以来，在深度学习理论和数据集的支持下，深度神经网络算法大爆发，包括卷积神经网络（CNN）等。连接主义的全面逆袭从 2012 年开始，欣顿教授和他的学生建立的 AlexNet 就是使用反向传播算法训练的卷积神经网络（CNN），其在图像识别方面击败了当时最先进的逻辑程序。虽然 CNN 模型取得了显著成果并解决了许多问题，但也存在一些缺陷，如不能从整幅图像和部分图像识别出姿势、纹理和变化，池化操作导致模型不具备等变、丢失很多信息，需要更多训练数据来补偿损失，更适合像素扰动极大的图像分类，对某些不同视角的图像识别能力相对较差。因此，在 2011 年，Hinton 和他的同事们提出了胶囊网络（CapsNet）作为 CNN 模型的替代。

GRU+CNN模型如何操作

GRU+CNN 模型的操作主要包括以下步骤： 1. 编码器部分：使用预训练的卷积神经网络（CNN），如 Inception Resnet V2，将输入图像转换为一组特征向量。在这种情况下，大部分 CNN 部分被冻结，保留预训练的权重。 2. 解码器部分：结构较为复杂，涉及到注意力机制、嵌入层、GRU 层、添加层归一化层和最终的密集层等。可以找到很多关于注意力层和解码器步骤的说明。 3. 组合模型：将编码器和解码器组合在一起，形成一个完整的图像字幕生成模型。 4. 自定义损失函数：由于任务是生成文本序列且序列长度可能不同，使用稀疏分类交叉熵作为损失函数，并屏蔽填充的部分。 5. 编译模型：编译模型，为开始训练做准备。 6. 训练模型：可以根据需求进行更多训练以获得更好结果。 7. 推理与生成字幕：训练完成后，为新的图像生成字幕。在推理阶段，需要重构解码器模型，使其可以接收额外的 GRU 状态输入，并编写自定义推理循环，一次产生一个单词，直到生成完整句子。

CNN的主要应用是什么？

CNN（卷积神经网络）主要应用于以下领域： 1. 模式识别任务，在计算上比大多数其他架构更有效、更快速。 2. 自然语言处理，已被用来击败大多数其他算法。 3. 图像识别，用于图像特征提取。 4. 推荐系统，将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。 5. 视觉分析，在 CV（计算机视觉）中发挥核心作用，经历了从零开始的深度学习、有监督、无监督和自监督等阶段。

大模型的系统提示词

大模型的系统提示词主要包括以下方面： 1. 在“五津：一键生成‘摸鱼打工猫’视频”中，针对用户选择的主题和回答，总结用户的创作意图，如“打工猫摸鱼的 2 小时，在巴厘岛能看一场日落”，并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词，以数组形式输出到“tishici”，将用户意图输出到“biaoti”。 2. 在“云中江树：智能对决：提示词攻防中的 AI 安全博弈”中，系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意；模型侧对于有能力的厂商应增强安全性并平衡性能，开发者则要在开发中带着安全意识优化系统提示词，加入安全引导和禁止内容等；输出侧可使用传统防御和内容过滤手段，并针对大模型特点进行私有数据泄露等检查。此外，还提到间接注入和提示词泄露的情况，间接注入常发生在应用获取依赖外部数据资源时，攻击者通过隐藏恶意指令完成攻击；提示词泄露指试图操纵模型输出获取部分或全部系统提示词，大模型输出内容可分为系统提示词、用户提示和助手提示词三段，通过攻击手段可获取系统提示词。

通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash，这3个视觉理解大模型哪个最厉害？

以下是对通义千问 Qwen2.5VL 模型的介绍：版本：有 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 然而，对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型，目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容，因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看，其在视觉理解方面具有较强的能力和优势。

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

目前全世界最厉害的视觉理解大模型是哪个

目前在视觉理解大模型方面，较为突出的有 DeepSeek 的 JanusPro 模型，它将图像理解和生成统一在一个模型中；还有通义千问的视觉理解模型，其价格有较大降幅。此外，Pixverse V3.5 是全球最快的 AI 视频生成模型，在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型，因为这取决于不同的评估标准和应用场景。

大模型对话产品的优劣

大模型对话产品具有以下优点： 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验，具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接，产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务，适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景，如私有领域知识问答、个性化聊天机器人、智能助手等。大模型对话产品也存在一些缺点： 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情，全靠用户脑补，导致用户上头期短，疲劳度高，长期留存低。 3. 无法回答私有领域问题（如公司制度、人员信息等）。 4. 无法及时获取最新信息（如实时天气、比赛结果等）。 5. 无法准确回答专业问题（如复杂数学计算、图像生成等）。