Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

请你简单描述下生成式人工智能的一般工作过程

Answer

生成式人工智能的一般工作过程如下:

  1. 设计提示:通过指定指示模型应如何响应的上下文来创建对话。
  2. 提供输入文本:将所需的输入文本(例如问题和说明)提供给模型。
  3. 模型响应:模型根据构建的提示方式提供响应。
  4. 调整模型:使其更适合具体用例。
  5. 部署到端点:以获取预测或在提示设计中对其进行测试。

在生成文本时,大语言模型使用监督学习不断预测下一个词语,经过大量的数据训练,它能够生成新的文本内容。

Content generated by AI large model, please carefully verify (powered by aily)

References

9. 生成式 AI Studio 简介

02:43对于视觉,您可以根据提示生成图像并进一步编辑图像。对于语音,您可以从语音生成文本,反之亦然。让我们关注您可以在Generative AI Studio中使用语言做什么。02:57具体来说,您可以:为与您的业务用例相关的任务设计提示,包括代码生成。通过指定指示模型应如何响应的上下文来创建对话。并调整模型,使其更适合您的用例,这样您就可以03:14将其部署到端点以获取预测或在提示设计中对其进行测试。让我们详细介绍这三个功能。首先是提示设计。要开始试验大型语言模型或LLM,请单击“新提示”。03:32在生成式AI的世界中,提示只是您提供给模型的输入文本的一个奇特名称。您可以将所需的输入文本(例如问题和说明)提供给模型。03:42然后,该模型将根据您构建提示的方式提供响应,因此,您获得的答案取决于您提出的问题。找出和设计最佳输入文本以获得所需响应的过程03:53从模型返回称为提示设计,这通常涉及大量实验。让我们从自由形式的提示开始。设计提示的一种方法是简单地告诉模型您想要什么。

学习笔记:Generative AI for Everyone吴恩达

聊天机器人可以用于,如做旅游计划,职业咨询,做饭建议。他们不仅仅会生成文本,还可以产生进一步行动,如处理文本后,发送订单信息等为客户提供服务的聊天机器人类型于下图的流程中体现,从完全由人处理,到机械处理后,由人判断,到最后将任务中的退款直接分离并直接处理,困难任务交由人处理。以及机器人完全处理。建立聊天机器人的流程应该是,1,开始于内部聊天机器人,确保良好表现并避免问题,2,设置人为参与链路,3,确保安全后,让机器人对接用户。

学习笔记:Generative AI for Everyone吴恩达

在整体的人工智能领域中,监督学习用于标记事物,一直占据很大比例。现在生成式AI在近期快速崛起,但强化学习与无监督学习也是AI领域重要的一种工具。生成式AI由监督学习技术搭建。2010-2020年是大规模监督学习的十年,这为现代人工智能奠定了基础。生成文本会使用到大语言模型,生成的过程是,大语言模式使用监督学习不断预测下一个词语,比如,i like,它会不断预测like后的词语是什么,经过大量的数据,它可能后面带的是,beaty,或者,eating,而eating后又大概率预测会有food。这样不断地生成新的文本内容。(这需要千亿,甚至万亿级别的单词数据库)

Others are asking
浅谈“生成式人工智能在中职实训课的应用”
生成式人工智能在中职实训课的应用: 生成式人工智能是一种能够生成新的、未曾存在内容的人工智能技术,所生成的内容可以是多模态的,包括文本(如文章、报告、诗歌等)、图像(如绘画、设计图、合成照片等)、音频(如音乐、语音、环境声音等)、视频(如电影剪辑、教程、仿真等)。 其应用场景广泛,例如: 文档摘要:将长篇文章或报告总结为简短、精准的摘要。 信息提取:从大量数据中识别并提取关键信息。 代码生成:根据用户的描述自动编写代码。 营销活动创建:生成广告文案、设计图像等。 虚拟协助:例如智能聊天机器人、虚拟客服等。 呼叫中心机器人:能够处理客户的电话请求。 生成式人工智能的工作方式如下: 1. 训练阶段:通过从大量现有内容(文本、音频、视频等)中学习进行训练,训练的结果是一个“基础模型”。 2. 应用阶段:基础模型可以用于生成内容并解决一般性问题,还可以使用特定领域的新数据集进一步训练,以解决特定问题,从而得到一个量身定制的新模型。 Google Cloud 提供了相关工具,如 Vertex AI 是端到端机器学习开发平台,旨在帮助开发人员构建、部署和管理机器学习模型;Generative AI Studio 允许应用程序开发人员或数据科学家快速制作原型和自定义生成式 AI 模型,无需代码或代码量少;Model Garden 是一个平台,可以让用户发现 Google 的基础和第三方开源模型,并与之交互,它提供了一组 MLOps 工具,用于自动化机器学习管道。 在教育领域,从 AI 助教到智慧学伴的应用探索中,以“移动教学与促动”课程实习周为例,让教育学专业的学生了解和尝试运用教育 APP、二维码、教育游戏等技术方式开展移动教学。课程实习需要在 5 天内让非技术背景的学生分组设计课程并展示,由于学生众多,教师难以给予个性化指导,而 AI 在一定程度上补足了学生缺乏的经验。
2025-03-31
生成式人工智能原理是什么
生成式人工智能的原理主要包括以下几个方面: 1. 基于深度学习技术和机器学习算法:通过大规模的数据集训练深度神经网络模型,学习各种数据的规律和特征,从而实现对输入数据的分析、理解和生成。 2. 监督学习:例如在生成文本时使用大语言模型,通过监督学习不断预测下一个词语,经过大量的数据训练,从而生成新的文本内容。这通常需要千亿甚至万亿级别的单词数据库。 3. 从大量现有内容中学习:包括文本、音频和视频等多模式的内容,这个学习过程称为训练,其结果是创造“基础模型”,如为聊天机器人提供支持的大型语言模型(LLM)。基础模型可用于生成内容并解决一般问题,也可以使用特定领域的新数据集进一步训练以解决特定问题。
2025-03-26
生成式AI的教育重构价值
生成式 AI 在教育领域具有重要的重构价值,主要体现在以下几个方面: 1. 为教师减负:通过复杂的算法、模型和规则,从大规模数据集中学习,创造新的原创内容,帮助教师减轻工作负担。 2. 创新教学方式:例如让历史人物亲自授课,知识获取不再受时空限制,提高教育效率和质量,增强学生学习兴趣。 3. 个性化教育:根据学生的学习情况、兴趣和偏好提供定制化的学习计划和资源,实现因材施教,满足学生学习需求,提高学习成果,缓解教育资源不平等问题。 4. 角色多样化:授课教师、游戏玩家、情感伴侣等服务都可以被 AI 重构。 5. 促进学生成长:人工智能生成的虚拟角色可以作为数字陪伴,给予孩子社会奖励,促进其成长和提高学习成绩。
2025-03-22
Stable Diffusion、MidJourney、DALL·E 这些生成式AI工具有什么区别
Stable Diffusion、Midjourney 和 DALL·E 这三个生成式 AI 工具主要有以下区别: 1. 开源性:Stable Diffusion 是开源的,用户可以在任何高端计算机上运行。 2. 学习曲线:Midjourney 的学习曲线较低,只需键入特定的提示就能得到较好的结果。 3. 图像质量:Midjourney 被认为是 2023 年中期图像质量最好的系统。 4. 应用场景:Stable Diffusion 特别适合将 AI 与来自其他源的图像结合;Adobe Firefly 内置在各种 Adobe 产品中,但在质量方面落后于 DALL·E 和 Midjourney。 5. 训练数据:这些工具都是使用大量的内容数据集进行训练的,例如 Stable Diffusion 是在从网络上抓取的超过 50 亿的图像/标题对上进行训练的。 6. 所属公司:DALL·E 来自 OpenAI。 在使用方面: 1. Stable Diffusion 开始使用需要付出努力,因为要学会正确制作提示,但一旦掌握,能产生很好的结果。 2. DALL·E 已纳入 Bing(需使用创意模式)和 Bing 图像创建器,系统可靠,但图像质量比 Midjourney 差。 3. Midjourney 需要 Discord,使用时需键入特定格式的提示。
2025-03-20
生成式人工智能的提示词工程
生成式人工智能的提示词工程是一门新兴学科,在生成式 AI 模型中具有重要作用。 提示词是用户与模型沟通愿望的文本界面,适用于图像生成模型(如 DALLE3、Midjourney)和语言模型(如 GPT4、Gemini)等。它可以是简单的问题,也可以是复杂的任务,包括指令、问题、输入数据和示例,以引导 AI 的响应。 提示词工程的核心是制作能实现特定目标的最佳提示词,这不仅要指导模型,还需深刻理解模型的能力和局限性及所处上下文。例如,在图像生成模型中是对期望图像的详细描述,在语言模型中可能是复杂查询。 提示词工程不仅是构建提示词,还需结合领域知识、对 AI 模型的理解及系统化方法为不同情境定制提示词,可能包括创建可根据数据集或上下文程序化修改的模板。 此外,提示词工程是迭代和探索的过程,类似于传统软件工程实践,如版本控制和回归测试。该领域发展迅速,有潜力改变机器学习的某些方面。 在商业和社会中,提示词工程师是被炒作的职位,实际可能承担了机器学习工程师的部分职责。提示词工程是一切生成式 AI 的基础,不管用于学习、写作、绘画、编程还是玩音乐等。 在使用提示词时,要记住几个基本关键点: 1. 角色/身份:告诉 AI 它需要扮演的身份,提升其“职业素养”。 2. 目标/任务以及背景:所有对话都有目的性,要交代目标背后的逻辑,包括为什么要实现目标、希望达到的结果等。
2025-03-19
生成式AI
生成式 AI(Generative AI)是一种基于深度学习技术,利用机器学习算法从已有数据中学习并生成新的数据或内容的 AI 应用。其工作原理是通过大规模的数据集训练深度神经网络模型,学习各种数据的规律和特征,实现对输入数据的分析、理解和生成。 AIGC(AI generated content)意为人工智能生成内容,又称为生成式 AI。例如 AI 文本续写,文字转图像的 AI 图、AI 主持人等,都属于 AIGC 的应用。能进行 AIGC 的产品项目和媒介很多,包括语言文字类(如 OpenAI 的 GPT、Google 的 Bard、百度的文心一言等)、语音声音类(如 Google 的 WaveNet、微软的 Deep Nerual Network、百度的 DeepSpeech 等)、图片美术类(如早期的 GEN、去年大热的扩散模型带火的 Midjourney、先驱者谷歌的 Disco Diffusion、OpenAI 的 Dalle·2 以及 stability ai 和 runaway 共同推出的 Stable Diffusion 等)。 SD 是 Stable Diffusion 的简称,是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,2022 年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像,是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模型”(latent diffusion model;LDM)。其代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。当前版本为 2.1 稳定版(2022.12.7)。源代码库:github.com/StabilityAI/stablediffusion 。 国内目前主要是在《网络安全法》《数据安全法》以及《个人信息保护法》的框架下,由《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法(试行)》共同监管 AIGC 行业。 Gen AI/Generative AI 是“生成式人工智能”正式称呼,是一种能够生成新内容的人工智能技术,比如文本、图像、音乐等。而 AIGC 指的是由人工智能生成的内容的创作方式,实际上是 Generative AI 的应用结果。 ChatGPT 在 2022 年宣发时,OpenAI 称其是一种模型,但在官网的帮助页面中,称其是一种服务。目前我们所熟知的 ChatGPT 逐渐演变成了一种可以兼容多种 GPT 模型的聊天应用(服务)。
2025-03-19
你是福州市政府工作人员,中国移动拟邀请福州市委书记参加中国移动人工智能生态大会并致辞,该大会是第八届数字峰会的组成部分,需要撰写市委书记的致辞稿,需要中国移动准备哪些素材,请告诉我提示词
以下是为您整理的相关内容: 《促进创新的人工智能监管方法》:包含了关于通用人工智能价值链、相关案例研究以及对人工智能监管框架的探讨等内容。 陶力文律师关于律师写好提示词用好 AI 的方法:包括初始化的欢迎语、遵循的规则、获取案例洞察报告和目标群体、输出纲要和写作方案、根据用户反馈调整等流程。 开幕式主持稿:涉及基地代表发言的时间、主题、物料配合和人员配合等信息。 但这些素材似乎与为中国移动准备市委书记致辞稿所需的素材关联不大。一般来说,为撰写市委书记在中国移动人工智能生态大会上的致辞稿,中国移动可能需要准备以下素材: 1. 本次大会的详细介绍,包括主题、目标、议程安排等。 2. 中国移动在人工智能领域的发展成果、战略规划和未来愿景。 3. 中国移动人工智能生态的构建情况,如合作伙伴、合作项目等。 4. 本次大会在第八届数字峰会中的地位和作用。 5. 相关行业的人工智能发展现状和趋势。 6. 福州市在人工智能领域的发展情况和与中国移动合作的展望。
2025-04-18
人工智能软件现在有哪些
以下是一些常见的人工智能软件: 1. 在自然语言处理和神经科学应用方面,大型语言模型取得了进展,拥有更先进的工具用于解码大脑状态和分析复杂脑部活动。 2. 在艺术创作领域,有涉及知识产权保护的相关软件,如软件工程师在设计时应确保生成内容合法合规、注重用户知识产权保护等。创作者使用此类软件时,应了解自身权利并做好保护。 3. 在线 TTS 工具方面,如 Eleven Labs(https://elevenlabs.io/)、Speechify(https://speechify.com/)、Azure AI Speech Studio(https://speech.microsoft.com/portal)、Voicemaker(https://voicemaker.in/)等。这些工具可将文本转换为语音,具有不同的特点和适用场景。但请注意,相关内容由 AI 大模型生成,请仔细甄别。
2025-04-15
什么是通用人工智能
通用人工智能(AGI)是指具有人类水平的智能和理解能力的 AI 系统。它有能力完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。 目前 AGI 还只是一个理论概念,没有任何 AI 系统能达到这种通用智能水平。 OpenAI 在其内部会议上分享了 AGI 的五个发展等级: 1. 聊天机器人(Chatbots):具备基本对话能力的 AI,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者(Reasoners):具备人类推理水平的 AI,能够解决复杂问题,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 3. 智能体(Agents):不仅具备推理能力,还能执行全自动化业务的 AI。目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者(Innovators):能够协助人类完成新发明的 AI,如谷歌 DeepMind 的 AlphaFold 模型,可以预测蛋白质结构,加速科学研究和新药发现。 5. 组织(Organizations):最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 常见名词解释: AGI:通用人工智能(Artificial General Intelligence)能够像人类一样思考、学习和执行多种任务的人工智能系统。 NLP:自然语言处理(Natural Language Processing),就是说人话。 LLM:大型语言模型(Large Language Model),数据规模很大,没钱搞不出来,大烧钱模型。
2025-04-15
2025年人工智能大模型的技术提升有哪些,是参数?推理能力?还是语料
2025 年人工智能大模型的技术提升可能体现在以下几个方面: 1. 视频生成能力:如 2024 年推出的多个先进的 AI 模型能够从文本输入生成高质量视频,相比 2023 年有显著进步。 2. 模型规模与性能:更小的模型能驱动更强的性能,如 2022 年最小能在 MMLU 上得分高于 60%的模型是具有 5400 亿参数的 PaLM,到 2024 年,参数仅 38 亿的微软 Phi3mini 也能达到相同阈值。 3. 推理能力:尽管加入了如思维链推理等机制显著提升了大语言模型的性能,但在一些需要逻辑推理的问题上,如算术和规划,尤其在超出训练范围的实例上,这些系统仍存在问题。 4. AI 代理:在短时间预算设置下,顶级 AI 系统得分高于人类专家,但随着时间预算增加,人类表现会超过 AI。 5. 算法变革:如 DeepSeek 的出现标志着算力效率拐点显现,其通过优化算法架构显著提升了算力利用效率,同时 2025 年发布的大模型呈现低参数量特征,为本地化部署到 AI 终端运行提供了可能,其训练过程聚焦于强化学习,提升了模型的推理能力。
2025-04-14
用通俗易懂的动画描述人工智能工作原理
人工智能的工作原理可以通过以下动画来描述: 在一个动画场景中,首先有一个传统工作流的部分,就像精心搭建的积木城堡,每一块积木的位置和形状都被精确设计和控制,这代表着传统工作流的可控性和高成本、慢速度。 然后是 AI 工作流的部分。想象一下,有一团混乱的色彩在飞舞,这团色彩代表着随机和不可控。但在这混乱中,有一种力量在尝试引导和塑造,就像在狂风中努力抓住风筝线一样,这就是在随机性中寻找可控性。 比如在一个生成音频与视频同步的例子中,动画展示了一个系统。首先,系统将视频输入编码成压缩的表示形式,就像把一大包东西压缩成一个小包裹。然后,扩散模型从随机噪声中不断改进音频,就像在混沌中逐渐塑造出清晰的声音。这个过程受到视觉输入和自然语言提示的引导,最终生成与提示紧密配合的同步逼真音频。最后,音频输出被解码,变成音频波形,并与视频数据完美结合。 总的来说,传统工作流在可控中寻找创新的随机,而 AI 工作流更多是在随机中寻找可控,两者各有优劣,结合起来能创造出更出色的成果。
2025-04-14
人工智能简史
人工智能作为一个领域始于二十世纪中叶。最初,符号推理流行,带来了如专家系统等重要进展,但因方法无法大规模拓展应用场景,且从专家提取知识并以计算机可读形式表现及保持知识库准确的任务复杂、成本高,导致 20 世纪 70 年代出现“人工智能寒冬”。 随着时间推移,计算资源变便宜,数据增多,神经网络方法在计算机视觉、语音理解等领域展现出卓越性能。过去十年中,“人工智能”常被视为“神经网络”的同义词,因多数成功案例基于神经网络方法。 以下是人工智能发展历程中的一些重要节点: 1969 年:经历低潮。Marvin Minsky 和 Seymour Papert 阐述因硬件限制,几层的神经网络仅能执行基本计算,AI 领域迎来第一次泡沫破灭。 1960 1970 年代:早期专家系统。此时期 AI 研究集中在符号主义,以逻辑推理为中心,主要是基于规则的系统,如早期专家系统。 1980 年代:神经网络。基于规则的系统弊端显现,人工智能研究关注机器学习,神经网络根据人脑结构和操作创建和建模。 1997 年:深蓝赢得国际象棋比赛。IBM 深蓝战胜国际象棋冠军卡斯帕罗夫,新的基于概率推论思路广泛应用于 AI 领域。 1990 2000 年代:机器学习。AI 研究在机器人技术、计算机视觉和自然语言处理等领域取得显著进展,21 世纪初深度学习出现使语音识别、图像识别和自然语言处理进步成为可能。 2012 年:深度学习兴起。Geoffrey Hinton 开创相关领域,发表开创性论文引入反向传播概念,突破感知器局限。 2012 年:AlexNet 赢得 ImageNet 挑战赛。引发深度学习热潮。 2016 年:AlphaGo 战胜围棋世界冠军。DeepMind 的 AlphaGo 战胜李世石,标志着人工智能在围棋领域超越人类,对人类理解产生深远影响。
2025-04-10
有没有能根据描述,生成对应的word模板的ai
目前有一些可以根据描述生成特定内容的 AI 应用和方法。例如: 在法律领域,您可以提供【案情描述】,按照给定的法律意见书模板生成法律意见书。例如针对商业贿赂等刑事案件,模拟不同辩护策略下的量刑结果,对比并推荐最佳辩护策略,或者为商业合同纠纷案件设计诉讼策略等。 在 AI 视频生成方面,有结构化的提示词模板,包括镜头语言(景别、运动、节奏等)、主体强化(动态描述、反常组合等)、细节层次(近景、中景、远景等)、背景氛围(超现实天气、空间异常等),以及增强电影感的技巧(加入时间变化、强调物理规则、设计视觉焦点转移等)。 一泽 Eze 提出的样例驱动的渐进式引导法,可利用 AI 高效设计提示词生成预期内容。先评估样例,与 AI 对话让其理解需求,提炼初始模板,通过多轮反馈直至达到预期,再用例测试看 AI 是否真正理解。 但需要注意的是,不同的场景和需求可能需要对提示词和模板进行针对性的调整和优化,以获得更符合期望的 word 模板。
2025-04-18
我想生成一个爆款小说描述词
以下是为您生成爆款小说描述词的一些建议: 1. 遵循“形容词+主语+环境+行为+构图+参考风格+渲染程度+后缀”的公式。例如,对人物的描述要包括情绪、发型、穿着等细节,对环境的描写要涵盖天气、地理位置等要素,还要对摄影、灯光和成像质量进行描述,并规定绘图比例。 2. 对于写小说本身,提示词相对简单。但要注意搜索相关思路,用上下文告诉模型需求中的概念含义,并将搜索结果结构化,方便模型理解。 3. 当为儿童创作简单易懂的绘画描述时,要符合逻辑且简单直白,有镜头描述,不增加额外元素。若主体为中国相关,要在描述中提及;未明确古代则默认为现代场景和人物。描述人物要涵盖多个维度,描述场景也要考虑多个方面,且要强调主体。
2025-04-08
现在我想通过一段描述生成一段视频,那么我现在用哪一个?工具是最好的呢。我想说的是现在因为在国内访问不了国外的网站,那么国内有没有哪些应用比较功能强大的是视频生成工具。
以下是一些在国内可用且功能强大的视频生成工具: 1. VIGGLE:可以直接通过文字描述让任何静态图动起来,能做各种动作,如跳舞等。其核心技术基于 JST1 模型,能理解真实世界的物理运动原理,生成的视频很真实,还能直接文字生成视频,进行各种角色混合和动作替换。核心功能包括可控制的视频生成、基于物理的动画、3D 角色和场景创建。 2. Pika:非常出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 3. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。 4. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 5. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 6. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 此外,还有以下根据视频脚本生成短视频的工具: 1. ChatGPT + 剪映:ChatGPT 生成视频小说脚本,剪映根据脚本自动分析出视频中需要的场景、角色、镜头等要素,并生成对应的素材和文本框架。 2. PixVerse AI:在线 AI 视频生成工具,支持将多模态输入(如图像、文本、音频)转化为视频。 3. Pictory:AI 视频生成器,允许用户轻松创建和编辑高质量视频,用户提供文本描述即可生成相应的视频内容。 4. VEED.IO:提供了 AI 图像生成器和 AI 脚本生成器,帮助用户从图像制作视频,并规划从开场到结尾的内容。 5. 艺映 AI:专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务,用户可以根据文本脚本生成视频。 这些工具各有特点,适用于不同的应用场景和需求,您可以根据自己的具体情况进行选择。需要注意的是,内容由 AI 大模型生成,请仔细甄别。
2025-03-23
现在我想通过一段描述生成一段视频,那么我现在用哪一个?工具是最好的呢。
以下是一些可用于根据文字描述生成视频的工具: 1. Adobe Firefly:其“生成视频”(测试版)能将书面描述转换为视频剪辑。您可以使用文本提示定义内容、情感和设置,包括摄像机角度,还能合并图像为视频生成提供视觉提示。操作步骤为:在 Adobe Firefly 网站上选择“生成视频”,在 Generate video 页面输入文本提示,也可在图像部分上传图像用于第一帧并提供方向参考,在 General settings 部分确定 aspect ratio 和 frames per second。 2. VIGGLE:其核心技术基于 JST1 模型,能理解真实世界的物理运动原理,生成的视频很真实。核心功能包括可控制的视频生成、基于物理的动画、3D 角色和场景创建。用户可通过文字描述指定角色动作和场景细节来生成视频。 3. Pika:出色的文本生成视频 AI 工具,擅长动画制作,支持视频编辑。 4. SVD:如果熟悉 Stable Diffusion,可安装此最新插件,在图片基础上直接生成视频,是由 Stability AI 开源的 video model。 5. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 6. Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 7. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 以上工具适用于不同的使用场景和需求,您可以根据自身具体情况选择。更多文生视频的网站可查看:。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-23
即梦提示词的描述结构框架是什么
即梦提示词的描述结构框架主要包括以下方面: 1. 提示词基础架构: 主体/场景 场景描述 环境描述 艺术风格/媒介 调整句式和语序,避免主体物过多/复杂、主体物分散的句式描述。 避免模糊的术语表达,尽可能准确。 使用更加流畅准确的口语化措辞,避免过度文学化的叙述。 丰富、准确和完整的描述才能生成特定艺术风格、满足需求的视频。 2. 提示词与画面联想程度的说明: 以单帧图像为例介绍提示词与画面联想的关系。 基础词示例:玻璃桌上的咖啡杯,杯子外面写着单词 LOVE。 适度联想扩充:花园里(具体的位置描述)的透明(材质描述)玻璃桌上的咖啡杯,杯子外面写着单词 LOVE,周围满是盛开的鲜花(具体的位置描述/环境描述),和煦的阳光洒满整个花园(环境描述),Claude Monet(艺术家风格),印象派风格(艺术流派风格)。 联想关键点: 具体详实的位置描述/环境描述:笼统来讲就是在进行构图,可以帮助构建画面的基本呈现效果。 艺术风格描述:进一步提升效果和氛围,统一画面风格。 此外,结构化提示词框架还包括: 1. 标识符:如 、<> 等符号(、 也是),依次标识标题、变量,控制内容层级,用于标识层次结构。 2. 属性词:如 Role、Profile、Initialization 等等,包含语义,是对模块下内容的总结和提示,用于标识语义结构。 您可以把结构化提示词框架当做提示词的八股文标准,在不了解如何开始进行提示词设计的时候,当做一个通用的标准格式来使用。结构化提示词的概念在行业内应用广泛且成熟度较高,您可以在即刻、知识星球、知乎等很多地方看到优秀的类型案例。例如以下案例: 关于结构化提示词的理论感兴趣想要进一步了解更多信息的朋友,推荐大家阅读李继刚和云中江树的详细理论原文: 结构化语法提示词示例:可以在 AGI 的下列板块看到非常多优秀的结构化 Prompt 示例。
2025-03-23
waytoagi 简单介绍
“通往 AGI 之路”(WaytoAGI)是一个致力于人工智能学习的中文知识库和社区平台: 旨在为学习者提供系统全面的 AI 学习路径,涵盖从基础概念到实际应用的各个方面,帮助用户有效地获取 AI 知识,提高自身能力。 由开发者、学者和 AI 爱好者共同参与建设,提供丰富的学习资源,包括文章、教程、工具推荐以及最新的 AI 行业资讯等。 定期组织活动,如视频挑战赛、模型创作大赛等,鼓励成员在实践中学习,促进交流与合作。 其品牌 VI 融合了独特的设计元素: 选择彩虹色作为主要的配色方案,代表多样性、包容性和创新。 标志性图案是一只鹿,与“路”谐音,象征着通往 AGI 未来的道路,寓意优雅与智慧。 选用简洁现代的非衬线字体,强调信息传达的清晰度和直接性。 此外,WaytoAGI 里有个离谱村: 是由 WaytoAGI 孵化的千人共创项目,让大家学习和接触 AI 更容易、更感兴趣。 参与者不分年龄层,一起脑洞和创意,都可以通过 AI 工具快速简单地创作出各种各样的作品。 离谱村是一个没有被定义的地方,每个人心中都有自己想象中的离谱村,是灵魂的避风港,激励着每一个生命体发挥其无限的想象力,创造属于自己的独特生活方式。 如果您对 AI 学习感兴趣,加入“通往 AGI 之路”社区将是一个不错的选择。在这里,您可以获取最新的 AI 知识,参与实践活动,与志同道合的学习者共同成长。
2025-04-14
我是一名AI古诗词视频创作者,我想教大家如果用AI软件将古诗词的内容用视频形式表现出来,请帮我写一个教学文档,要求内容丰富,从简单到复杂,从入门到深层思考和学习,包括提示词怎么写,提示词模板,提示词举例等
以下是一份关于如何用 AI 软件将古诗词内容以视频形式表现出来的教学文档: 一、简单入门 如果是简单的图,找原图直接写提示词即可。 二、复杂图片处理 1. 图片分模块 对于复杂部分的图,把长图分多个模块。例如,将一张图分成 4 个模块。 2. 抠出背景图 智能抠图。用工具把要动的内容去除掉,用 AI 生成图片部分。如果有水印,可以把图片向下拓展一部分,然后截掉。 3. 绿幕处理前景图 将要拿来动起来的部分抠出,放在绿幕背景里或者画的背景颜色,导出图片。 4. 前景图动态生成视频 用 AI 视频生成工具写入提示词让图片动起来。有很多工具可供选择,如即梦、海螺、混元等。不停尝试抽卡即可。 5. 生成视频去掉背景 用剪映把抽卡合格的视频放在去掉内容的背景图片上,视频的背景用色度抠图调整去掉。多个视频放在背景图片,一起动即可。 三、提示词相关 1. 文案生成 工具:DeepSeek 操作:打开 DeepSeek 网站(https://chat.deepseek.com/ ),输入提示词。例如:“让 XX 用现代口语化的表达、生气骂人的口吻吐槽 XXXX(例如:吐槽现代人),XXX 目的(例如:推广 XXX 吸引游客来旅游),输出 3 条 60 字左右的毒舌文案,每条里面都要有‘回答我!Look in my eyes!Tell me!why?baby!why?’”可以根据自己的内容自行调整文案和字数要求。点击生成,等待 DeepSeek 输出 3 条文案。从中挑选最满意的一条(或多条)保存备用。 2. 准备人物形象图 工具:即梦 AI 操作:打开即梦 AI 网站(https://jimeng.jianying.com/aitool/image/generate ),输入提示词,即梦已经接入了 DeepSeek,可以直接用它来生成绘图提示词。调整生成参数(如风格、细节等),点击生成。预览生成的人物图,不满意可调整提示词重新生成,直到满意为止。下载最终的人物形象图。 四、其他注意事项 1. 指定视觉细节 包括颜色、照明、相机角度和风格等任何视觉元素的描述。提供的细节越多,输出就越接近您的愿景。 2. 提及所需长度和格式 如果您对特定的长度(以秒或分钟为单位)或格式(宽高比、分辨率)有想法,请提及。这对于 AI 生成符合您要求的内容至关重要。 3. 概述音频偏好 如果您的视频需要特定的音频元素,如背景音乐、旁白或音效,请详细描述。指定您是希望 AI 生成这些元素还是您自己提供。 4. 考虑道德和版权准则 确保您的提示符合道德标准和版权法。避免请求侵犯版权或涉及没有适当背景的敏感主题的内容。 请根据您的具体需求和所使用的视频 AI 工具的能力调整模板和示例。记住,输出的质量在很大程度上取决于您通过提示传达愿景的效果。
2025-04-08
将照片改成卡通效果用什么ai会比较简单易操作
以下几种 AI 工具可以将照片改成卡通效果,操作相对简单易操作: 1. ChatGPT 4o:支持上传照片后直接生成“吉卜力卡通风格”图像,提示词只需简单写“吉卜力风格化”即可,后续会话中只需上传图片,无需重复输入提示词。参考链接:
2025-04-08
有哪些AI代码可生成的简单好玩的东西
以下是一些通过 AI 代码可生成的简单好玩的东西: 1. 小游戏: 贪吃蛇游戏:在 Trae 上,通过快捷键打开 AI 聊天窗口,点击“Builder 模式”,输入“帮我创建一个贪食蛇的游戏”,等 60 秒,AI 生成代码,点“运行”。 赛车游戏:把刚刚创建的贪吃蛇游戏代码删掉,然后输入“帮我创建一个赛车游戏”,等 60 秒,AI 生成代码,点“运行”。 2. 待办事项清单: 直接在对话框输入“生成一个待办事项清单的应用”。 上传图片给 AI,并告诉它“我要一个与图片类似的待办事项清单”。 3. 任务清单应用:在输入框中输入“使用 Web 技术开发一个任务清单应用”。 4. 根据 UI 设计图自动生成项目代码:从站酷上找一张设计图,输入提示“使用 html 技术实现如图大屏页面”,然后根据需要让 Trae 进行调整。 从实际体验来看,Trae 具有高效的代码生成能力、多技术栈支持和动态调整潜力。无论是小游戏、待办事项清单还是其他应用,都能在短时间内生成完整框架,代码结构清晰且功能齐全。
2025-03-27
有哪些AI工具可以获取上市公司年报数据。我是小白,推荐简单好学的工具。
以下是一些可能获取上市公司年报数据的 AI 工具及相关信息: AI 智库:提供了上市公司的相关排名和产品信息,如百度、美图公司、阿里巴巴、昆仑万维等公司的情况。 余一的相关文档:包括《从 2023 年报,看中国上市公司怎么使用生成式 AI》等,可通过相关链接获取详细内容。 对于小白来说,您可以先尝试从这些资源中获取所需的上市公司年报数据。
2025-03-25
什么AI可以帮忙简单处理图片
以下几种 AI 可以帮忙简单处理图片: 1. SD(StableDiffusion):启用 MutiDiffusion 插件,不开放大倍数,仅使用分块渲染功能,能在显存不够的情况下放大图片。可对老照片进行上色、高清化处理,但处理复杂照片时可能有难度,需要调整策略,如放弃人物服装颜色指定,只给场景方向,加入第二个 controlnet 控制颜色等。 2. OpenAI:可以利用代码解释器中的 Python 以图片流的方式处理图片,但 Python 因缺少包不能直接处理图片。 3. 扣子:整个工作流程包括用户输入关键词,大模型制作金句,根据金句生成画面描述,结合描述和关键词使用扣子官方插件生成图片,再使用图像流方式结合金句和图片。 4. MJ(Midjourney):加上简单相机参数、写实风格,使用 MJ v 6.0 绘图,可根据需求调整图片比例。 5. InsightFaceSwap:用于处理图片的换脸操作,如输入“/saveid”和“/swapid”等指令上传图片进行处理,但对老外的脸识别度较好,效果可能因情况而异。 处理图片时还可能涉及到 PS 等工具进行裁剪、拼接等操作。
2025-03-21