Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

能画技术路线图的prompt

Answer

以下是关于能画技术路线图的 prompt 相关内容:

Midjourney Bot 的 Prompt 类型

  • 基本 Prompts:可以只是一个单词、短语或表情符号。
  • 高级 Prompts:包括一个或多个图片 URL、多个文本短语以及一个或多个参数。其中,图片 URL 始终位于 prompt 的最前面,以影响完成结果的风格和内容。提示文字是对希望生成的图像的文本描述,精心编写的提示有助于生成惊艳的图像。参数可以改变生成图片的方式,需放在提示语的末尾。

ComfyUI Flux 与 runway 制作绘画视频

  • 生成图片:提示词告诉 flux 生成一张技术草图,如 CAD。
  • 绘制的视频:在 runway 里面,使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧。
  • 草图上色:使用 flux 的 controlNet,depth 固定,目前 Union 版本不建议权重调太高,结束时间也需注意。

Prompt engineering(提示工程)

  • 开发测试用例:定义任务和成功标准后,创建多样化的测试用例,包括典型示例和边界情况,以确保提示具有鲁棒性。
  • 设计初步提示:制定初步提示,概述任务定义、良好响应的特征及必要上下文,添加规范输入和输出的示例供参考。
  • 根据测试用例测试提示:使用初步提示将测试用例输入,评估模型响应与预期输出和成功标准的一致性,使用一致的评分标准进行系统性的性能评估。
Content generated by AI large model, please carefully verify (powered by aily)

References

Prompts-指令

一个基本的提示可以只是一个单词、短语或表情符号。<qa:image>caption=""h="165"image_token="UB1Ab5UTToSJ2AxjdzTcnXcbnyf"w="570"</qa>[heading3]高级Prompts[content]更高级的Prompts可以包括一个或多个[图片URL](https://docs.midjourney.com/image-prompts),[多个文本短语](https://docs.midjourney.com/multi-prompts),以及一个或多个[参数](https://docs.midjourney.com/parameter-list)。<qa:image>caption=""h="170"image_token="KYXUb9ueloupqFxdh7yc7xGIngg"w="1200"</qa>Image PromptsImage URLs(多个图片地址)始终位于prompt的最前面,以影响完成结果的风格和内容。[查看更多Image Prompts说明](https://docs.midjourney.com/image-prompts)Prompt Text提示文字希望生成的图像的文本描述。请参阅下面的提示信息和技巧。精心编写的提示可以帮助其生成惊艳的图像。Parameters参数参数可以改变生成图片的方式,包括调整纵横比、模型、升频等等。参数需要放在提示语的末尾。[Read more about Parameters](https://docs.midjourney.com/parameter-list)

ComfyUI Flux与runway制作绘画视频

这个是外国大佬@Ror_Fly的创意思路,很好的利用了runway的尾帧来制作动画,我也进行了实测,记录下来,关键的点,大家也可以发掘更多的玩法。[heading3]生成图片[content]提示词告诉flux,去生成一张技术草图,CAD提示词:eg:Flux短提示词,可以在上面提示词的里面提取<qa:image>caption=""h="292"image_token="DHrXbtyuWol4xex7B8Cc8EzInId"w="480"</qa><qa:image>caption=""h="768"image_token="DHOtbzo5QoWNNmxjic1cEV2Sn1e"w="1280"</qa>[heading3]绘制的视频[content]在runway里面,使用提示词,告诉是从空白页面开始,逐行创建在runway里面,把生成的图片作为尾帧。<qa:image>caption=""h="1021"image_token="P4RSbOA1RolG9Kxlv3FcL8V4n0s"w="1180"</qa>[Gen-3 Alpha 1963070634,sketch drawing of a,ComfyUI_temp_lnmie_0,M 5.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/IsBRbeFi3oPoUGxYao9cwBcQn2d?allow_redirect=1)[heading3]草图上色[content]使用flux的controlNet,depth固定controlNet使用的是Union的版本,目前这个版本,不建议权重调的太高,结束时间也是。<qa:image>caption=""h="1142"image_token="M9O1b1kIloxnCAxQP1xcd7nqnwg"w="2041"</qa><qa:image>caption=""h="768"image_token="Ldmmb5Wf8oe5iDxcjaKccV9jnEb"w="1280"</qa>[heading3]生成上色后的视频[content]<qa:image>caption=""h="1333"image_token="FQKObS2yJoIsivx0OeDcO7Ien6c"w="1191"</qa>[Gen-3 Alpha Turbo 766422618,A robot cat running,ComfyUI_temp_lnmie_0,M 5.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/RQBfbBGipoz4yNxpuZOcjc0Kn6c?allow_redirect=1)[heading3]how2draw Flux lora[content]再分享一个好玩的flux lora,用来展示绘画的过程。触发词:how2draw<qa:image>caption=""h="768"image_token="IN2Pbtk66ojTWLxlSEJcpufLn0c"w="1280"</qa>

2.Prompt engineering 提示工程

Develop test cases:With your task and success criteria defined,the next step is to create a diverse set of test cases that cover the intended use cases for your application.These should include both typical examples and edge cases to ensure your prompts are robust.Having well-defined test cases upfront will enable you to objectively measure the performance of your prompts against your success criteria.开发测试用例:在定义任务和成功标准之后,下一步是创建一组多样化的测试用例,涵盖应用程序的预期用例。这些应包括典型示例和边界情况,以确保您的提示具有鲁棒性。提前定义好的测试用例将使您能够客观地衡量您的提示与成功标准的表现。Engineer the preliminary prompt:Next,craft an initial prompt that outlines the task definition,characteristics of a good response,and any necessary context for Claude.Ideally you should add some examples of canonical inputs and outputs for Claude to follow.This preliminary prompt will serve as the starting point for refinement.设计初步提示:接下来,制定一个初步的提示,概述任务定义、良好响应的特征,以及Claude所需的任何上下文。理想情况下,您应该添加一些规范输入和输出的示例供Claude参考。这个初步提示将作为改进的起点。Test prompt against test cases:Feed your test cases into Claude using the preliminary prompt.Carefully evaluate the model's responses against your expected outputs and success criteria.Use a consistent grading rubric,whether it's human evaluation,comparison to an answer key,or even another instance of Claude’s judgement based on a rubric.The key is to have a systematic way to assess performance.根据测试用例测试提示:使用初步提示将测试用例输入到Claude中。仔细评估模型的响应与您预期的输出和成功标准是否一致。使用一致的评分标准,无论是人工评估、与答案标准的比较,甚至是基于评分标准的Claude判断的另一个实例。关键是要有一种系统性的评估性能的方式。

Others are asking
智能画布好用吗
智能画布具有一定的优势和特点。例如,即梦智能画布将 midjourney、stablediffusion 和 Photoshop 的工作流一站式集中,支持多图层的 AI 可控能力,如边缘保持,还支持超清、重绘、抠图、扩图等丰富的后编辑能力。 此外,Miro 的 Intelligent Canvas 是一个基于人工智能的工作平台,能够将大脑风暴中的想法转化为产品简报和摘要,以推动工作进展。用户只需提供画布上的内容,Miro AI 就能自动处理后续步骤,节省了制作图表、简报和摘要的时间,还提供了预设的动作和快捷方式,以及与相关人员的即时协作。 不过,智能画布的好用程度可能因个人需求和使用场景的不同而有所差异。
2025-03-03
即梦ai里,关于智能画布中的参考图的具体作用
在即梦 AI 中,智能画布中的参考图具有以下重要作用: 1. 实现多种商业创意设计:只需上传一张参考图,就能快速生成多种创意设计,例如模特图的变装、换发型、换脸、换发色和调整人物姿势;产品图的材质和背景改变;电商海报的背景、元素更改等。 2. 提升设计的灵活性和可塑性:在奶茶宣传图的制作中,参考图在制作步骤中发挥了关键作用,如在第 1 步找参考图,为后续的生成和融合等操作提供基础。 基础操作包括: 1. 打开即梦官网 https://jimeng.jianying.com/ 。 2. 选择图片生成。 3. 选择导入参考图(上传一张参考图,点击智能参考)。 相关案例: 1. 模特图自由定制:通过智能参考,轻松实现模特图的多种变化。 2. 产品图随心变化:可以改变产品材质和画面背景。 3. 电商海报一键搞定:支持随意更改背景、元素,适应不同营销主题。 原文链接:https://mp.weixin.qq.com/s/sD0RFMqnFZ6Bj9ZcyFuZNA
2025-02-17
即梦ai里,关于智能画布中的参考图的具体作用
在即梦 AI 中,智能画布中的参考图具有以下重要作用: 1. 实现多种商业创意设计:只需上传一张参考图,就能快速生成多种创意设计,例如模特图的变装、换发型、换脸、换发色和调整人物姿势;产品图的材质和背景改变;电商海报的背景、元素更改等。 2. 提升设计的灵活性和可塑性:在奶茶宣传图的制作中,参考图在制作步骤中发挥了关键作用,如在第 1 步找参考图,为后续的生成和融合等操作提供基础。 基础操作包括: 1. 打开即梦官网 https://jimeng.jianying.com/ 。 2. 选择图片生成。 3. 选择导入参考图(上传一张参考图,点击智能参考)。 相关案例: 1. 模特图自由定制:通过智能参考,轻松实现模特图的多种变化。 2. 产品图随心变化:可以改变产品材质和画面背景。 3. 电商海报一键搞定:支持随意更改背景、元素,适应不同营销主题。 原文链接:https://mp.weixin.qq.com/s/sD0RFMqnFZ6Bj9ZcyFuZNA
2025-02-17
能画原型的ai工具
以下是一些能画原型的 AI 工具: 1. Uizard: 2. UIzard:是一个利用 AI 技术生成用户界面的工具,可根据设计师提供的信息快速生成 UI 设计。 3. Figma:是一个基于云的设计工具,提供自动布局和组件库,其社区也开发了一些 AI 插件用于增强设计流程。 4. Sketch:提供插件系统,其中一些插件利用 AI 技术来辅助设计工作,例如自动生成设计元素等。 5. 即时设计:https://js.design/ ,是一款可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 6. V0.dev:https://v0.dev/ ,Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面,基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 7. Wix: ,是一款用户友好的 AI 工具,可在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供选择,以及移动优化和集成电子商务功能等功能。通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 8. Dora:https://www.dora.run/ ,使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 请注意,部分内容由 AI 大模型生成,请仔细甄别。在版块里还有更多推荐的网站。
2024-12-10
你能不能画图
以下是一些能够进行画图相关工作的人员和相关信息: Ceee:15359229545,辅助生图(平面) snownix88:15882403587,制作视频 银佳:18565577770,绘图和转绘视频 Jessie:18601073970,视频转绘(稳定可控) 吉米:13652342900,画图 乱拳打死老师傅:16696087953,设计方面 淅吾:18706068133,精准控图出视频 ?郑伟·设计师·AIGC:15170001671,AI 摄影,个人照片风格化定制,comfyui 底层逻辑 蓝天:13667346166,做自媒体出图 少泽:18832113388,绘画 Heisenberg:18115340417,建筑设计,视频,绘画,摄影等 桃笙:13786952919,设计工作 samuel:13925911177,视频,室内设计,人物设计 青椒:17610173310,空间设计 麻袋 Zzz:13922825326,出图出海报 周钰唤:18646440852,出图 噼哩啪啦猴:13670795608,视频制作和工作应用 Aurora:19858379580,产品设计 lida:13486117261,接单 kone:18616571618,AI 短片 AI 商业广告 晓涵:17801234978,做视频 Jason:13925229055,用户视频及海报制作,主要针对小红书抖音 流云:16621047986,AI 绘画视频的创作 袁掌柜:19905416876,在工作中运用 是颗橙子呀:18826524798,日常运营图绘制 多星宇:15073404891,做图 阿旭:13580156347,电商领域 韩常青:17661167580,跨境电商行业 霖晨:15920850037,图片、视频设计 吉米:自动化办公 牟豪:18327645411,视频 oksigna:17349201017,图像、方案设计 胡海超:15556906631,全方面学习 moracia:之前使用过 webui,第一次接触 ComfyUI,还在摸索着中! 无何有老田:18698735336,产品摄影 丁:15624001525,业务实战 杨进:设计工作 醒不醒还行哈:我没注册过,实践中各方面 Labzen:13044206036,画图 张雷:13211601382,视频 徐洋:18500972026,行业场景细分应用 AI;通过学习 AI,赋能行业解决问题,比如:市场投放效率,数据化运营升级,电网资和现场销售的人员能力和效率提升等 皮皮虾:文生图和图生视频 在确认选题之后,可以开始画图,推荐使用 DALL·E 或者 MJ。打开 GPT4,把对标的图丢进去,让它画。提示词:如果我想用 dall 画出这样的图片,应该怎么画。然后得到图,此时也可以把描述词问出来(不是必须的,可以不问),或者直接让它把老鼠换成牛,之后不断重复上述操作,画出 12 生肖的图即可。
2024-10-13
PromptEnhancer
以下是关于 PromptEnhancer 的相关信息: PromptEnhancer 是一款自动生成/优化 prompt 的工具。 在对最流行的“AI 提示生成器”的比较分析中,针对“作为一名 IT 学生,为我的高级项目提出想法;我想要关于学生帮助大学学生的想法”这一测试种子提示,PromptEnhancer 在实验中的成绩为 4 胜 0 负。 相关链接:https://flowgpt.com/prompt/sbuYQwUq_8v8fafR5zJuB
2025-04-20
整理会议纪要的prompt
以下是一些关于整理会议纪要的 prompt: 【?会议精要】整理生成高质量会议纪要,保证内容完整、准确且精炼。 会议记录员:将会议浓缩成简明摘要,包括讨论主题、重点内容、行动事项。 CEO 秘书会议纪要:专注于整理和生成高质量的会议纪要,确保会议目标和行动计划清晰明确。需严格遵守信息准确性,不对用户提供的信息做扩写,仅做信息整理,将一些明显的病句做微调。
2025-04-15
作为一个想要使用AI工具提升工作效率的AI小白,我已经学习了怎么编写prompt,接下来我应该学习什么
如果您已经学习了如何编写 prompt ,接下来可以学习以下内容: 1. 理解 Token 限制:形成“当前消耗了多少 Token”的自然体感,把握有效记忆长度,避免在超过限制时得到失忆的回答。同时,编写 Prompt 时要珍惜 Token ,秉承奥卡姆剃刀原理,精简表达,尤其是在连续多轮对话中。 熟练使用中英文切换,若 Prompt 太长可用英文设定并要求中文输出,节省 Token 用于更多对话。 了解自带方法论的英文短语或句子,如“Chain of thought”。 2. 学习精准控制生成式人工智能:重点学习提示词技术,编写更清晰、精确的指令,引导 AI 工具产生所需结果。 探索构建智能体(AI Agents),将工作单元切割开,赋予其特定角色和任务,协同工作提高效率。 在实际应用中遵循准则,如彻底变“懒人”、能动嘴不动手、能让 AI 做的就不自己动手、构建自己的智能体、根据结果反馈调整智能体、定期审视工作流程看哪些部分可用更多 AI 。 3. 若想进一步提升: 学习搭建专业知识库、构建系统知识体系,用于驱动工作和个人爱好创作。 注重个人能力提升,尤其是学习能力和创造能力。 您还可以结合自身生活或工作场景,想一个能简单自动化的场景,如自动给班级孩子起昵称、排版运营文案、安排减脂餐、列学习计划、设计调研问卷等。选一个好上手的提示词框架开启第一次有效编写,比如从基础的“情境:”开始。
2025-04-15
对于用cursor来开发,有没有好好用prompt来使cursor变得更加好用
以下是关于如何用 prompt 使 Cursor 变得更好用的相关内容: 在 prompt 方面,Devin 有一个特别有帮助的文档(https://docs.devin.ai/learnaboutdevin/prompting),它会教您什么样的 prompt 在与 Devin 沟通时最有效,比如明确定义成功的标准,如跑通某个测试或访问某个链接能对得上等。将同样的原则应用到 Cursor 中,会发现 Cursor 变得聪明很多,能自主验证任务完成情况并进行迭代。 Cursor 在生成单测方面表现出色。相对 GPT 等工具,Cursor 解决了上下文缺失和难以实现增量更新的问题。它可以向量化整个代码仓库,在生成单测代码时能同时提供目标模块及对应的上下游模块代码,生成结果更精确。例如,使用适当的 Prompt 能返回基于 Vitest 的结果,调整成本较小。 Cursor 支持使用.cursorrules 文件设定项目的系统提示词,针对不同语言可设定不同的 Prompt。@AIChain 花生做了一个 Cursor 插件解决提示语管理问题,可选择不同的.cursorrules 文件,还可从 https://cursor.directory/ 和 https://cursorlist.com/ 寻找提示词。此外,还有一个提示语小技巧,给已有的提示语追加上特定规则,可使模型在搜索资源和思考时默认使用英语,回复转换成中文,或更灵活地根据提问语言进行回复。
2025-04-14
有什么 prompt engineering 的好材料
以下是一些关于 prompt engineering 的好材料: 文本类 Prompt 网站: Learning Prompt:授人以渔,非常详尽的 Prompt 学习资源,包括 ChatGPT 和 MidJourney,网址: FlowGPT:国外做的最大的 prompt 站,内容超全面,更新快,网址: ChatGPT Shortcut:ChatGPT 提示词网站,提供了非常多使用模板,简单修改即可指定输出,网址: ClickPrompt:轻松查看、分享和一键运行模型,创建 Prompt 并与其他人分享,网址: Prompt Extend:让 AI 帮你自动拓展 Prompt,网址: PromptPerfect:帮你自动优化提示词,你可以看到优化前后的对比,网址: PromptKnit:The best playground for prompt designers,网址: PromptPort(支持中文):AI Prompt 百科辞典,其中 prompts 是聚合了市场上大部分优质的 prompt 的词库,快速的寻找到用户需求 prompt,网址: Prompt Engineering Guide:GitHub 上点赞量非常高的提示工程指南,网址: Claude 3.7 核心提示词相关: 您可以在中找到他们往期开源的更多系统提示词,涵盖了从 Claude 3 Haiku 到现在所有的模型。 一泽 Eze 整理的相关学习资料: Claude 3.5 sonnet 内置提示词详细拆解与解说:https://mp.weixin.qq.com/s/0R4zgH3Gc5TAfAPY1oJU4A Anthropic 的三位顶级提示工程专家聊《如何当好的提示词工程师》:https://mp.weixin.qq.com/s/VP_auG0a3CzULlf_Eiz1sw 往期 Claude AI 核心系统提示词:https://docs.anthropic.com/en/releasenotes/systemprompts Claude 官方用户手册 提示工程指南:https://docs.anthropic.com/en/docs/buildwithclaude/promptengineering/overview Claude 官方提示库:https://docs.anthropic.com/en/promptlibrary/library 基本概念: 简单的提示词可以包含指令、问题等信息,也可以包含上下文、输入或示例等详细信息,以更好地指导模型获得更好的结果。 当使用 OpenAI 的聊天模型时,可以使用 system、user 和 assistant 三个不同的角色来构建 prompt,system 有助于设定 assistant 的整体行为。 提示工程就是探讨如何设计出最佳提示词,用于指导语言模型帮助我们高效完成某项任务。
2025-04-12
生成可视化网页的 prompt
以下是关于生成可视化网页的 prompt 相关内容: 1. 利用 AI 将 PDF 一键变成可视化网页: 整体思路来自归藏。 目前只有 Claude 3.7 Sonnet 效果最好,可将 prompt 发给能使用它的产品,如 Claude 自己的官网、trea 海外版、cursor 等。 Prompt 基本复制可用,但需将作者信息和媒体资源部分改成自己的内容。媒体资源若为网上现成图片,可复制图像链接;若为自己的图片,可使用图床服务生成公链,以 Markdown 格式贴到媒体资源处。 2. 为生成更漂亮的可视化网页编写的工具: 解决了模型生成结果过于随机的问题。 可在网页上自定义基础样式或随机生成,直到满意。 工具网址:https://60mcp23013.yourware.so/ 3. 3 月 25 日 AI 资讯汇总中的相关用例: 动态图表制作:输入“请给我输出红楼梦的人物关系,并与 html 的形式输出可视化图表,可以参考我给你的图表形式”,可添加参考的个性化图表示例,以 html 附件形式上传。 提供文案输出可视化网页:输入“来自归藏大大 我们输入我们的 AI 周刊内容”。 小红书卡片:输入“来自向阳乔木大大的提示词”。
2025-04-10
我已经有了论文大纲,需要生成技术路线图,哪个AI可以实现
以下是一些可以帮助您生成技术路线图的 AI 工具和方法: 1. 利用 AI 写作助手生成课题的大纲,包括引言、文献综述、方法论、结果和讨论等部分。 2. 使用 AI 文本分析工具来分析收集到的资料,提取关键信息和主要观点。 3. 对于生成“延伸思考”的问题,可以让 AI 根据特定的参照(比如之前的产出或是新增的参考文案)输出具备更高关联度的内容。 4. 可以用同一段提示词对比不同模型的输出,择优深挖。 5. 在满意的内容节点上添加“文本编辑器显示”,对文本进行精加工。 6. 先确定整个调研报告的大纲目录,例如通过手机识别示例报告的目录截图。 7. 让 AI 总结语言风格,如将范文交给 Claude 2 总结语言风格。 8. 让 GPT4 按照目录逐步生成章节内容,设置循环结构,根据情况决定是否调用 webpolit 插件查询相关信息。 9. 在需要搜索网络信息的章节处打上标签,让 GPT4 自主搜索信息再来生成内容。 需要注意的是,AI 工具可以作为辅助,但不能完全替代您的专业判断和创造性思维。在使用 AI 进行相关工作时,应保持批判性思维,并确保成果的质量和学术诚信。
2025-04-08
ChatGPT 各项技术能力路线图
以下是关于 ChatGPT 技术能力路线图的相关内容: 阶段一:开卷有益阶段 理解人类语言,学习语义关系、语法规律,能够应对未见过的语言处理情况。 GPT3 习得各种词汇和语法规则、编程语言及不同语言之间的关系,但存在回答不受约束的问题,指挥很重要。 阶段二:模版规范阶段 对话模版矫正模型,可形成优质对话并实现延展能力,知道什么该说和不该说。 通过任务对话范文训练,实现理解指令要求和例子要求的能力。 同时,在 AGI 实现路径与技术预测方面: 主要技术路线与理论框架包括可能性,如硬件与计算架构的趋势(量子计算、神经形态芯片、云计算资源扩展等),软件与算法进展(深度学习、元学习、强化学习、神经符号混合、AutoML、AutoGPT 等),以及人工智能安全与对齐研究(对齐难题、可解释性等)。 实现 AGI 所需的里程碑与风险点包括可能的时间表(如 2030、2040、2050 关键技术预测)和潜在的“奇点”时刻与触发条件(硬件爆发、算法重大突破、意外的研究范式转折等)。 此外,AI 的发展历程: 从 1950 年提出,近 20 年在国内互联网发展下普及。 最初应用是基于 NLP 技术的聊天机器人和客服机器人。 随后中英文翻译、语音识别、人脸识别等技术取得突破,在日常生活中广泛应用。 以前技术突破多限于特定领域,模型应用范围狭窄。 随着 OpenAI ChatGPT 等大型语言模型的突破,展示了新的发展路线,通过大规模模型预训练,涌现出广泛的智能应用。 这种集多功能于一体的模型为 AI 未来发展提供新方向,也带来新焦虑,但“人机共生”几乎是人类发展的必然。
2025-02-27
小模型场景落地路线图
实施小模型(如轻量级机器学习模型或嵌入式AI模型)的场景落地需要精细的规划和执行。以下是一个详细的路线图,涵盖从概念到部署的各个阶段。 路线图 1. 需求分析 目标定义: 明确项目的目标和期望结果,确定需要解决的问题和应用场景。 可行性研究: 评估技术可行性、市场需求和成本效益。 需求收集: 收集和分析来自利益相关者的需求,明确模型功能和性能指标。 2. 数据准备 数据收集: 收集相关数据,这可以来自数据库、传感器、API等。 数据清洗: 处理缺失值、异常值和重复数据。 数据标注: 对数据进行分类和标注,以便用于监督学习模型。 数据分割: 将数据分为训练集、验证集和测试集。 3. 模型选择 模型探索: 调研和选择适合项目需求的小模型,如TinyML模型、MobileNet、SqueezeNet等。 预训练模型: 考虑使用预训练模型进行微调,以节省时间和计算资源。 4. 模型训练 训练环境搭建: 配置所需的硬件和软件环境(如TensorFlow Lite、PyTorch Mobile)。 模型训练: 在训练集上训练模型,并使用验证集进行调优。 超参数调优: 通过网格搜索或贝叶斯优化等方法优化模型超参数。 5. 模型优化 模型压缩: 采用剪枝、量化等技术减少模型大小和计算量。 模型精简: 删除不必要的特征和层,进一步简化模型结构。 模型加速: 使用硬件加速(如TPU、GPU)优化模型推理速度。 6. 部署准备 平台选择: 确定模型的部署平台(如移动设备、嵌入式系统、边缘设备)。 代码整合: 将模型集成到应用程序或设备固件中。 性能测试: 在目标环境中测试模型的性能,包括速度、内存占用和功耗等。 7. 模型部署 部署环境搭建: 搭建生产环境,确保与开发环境一致。 持续集成: 设置CI/CD管道,确保模型的持续集成和部署。 安全措施: 实施必要的安全措施,保护模型和数据的隐私与安全。 8. 监控与维护 监控系统: 部署监控系统,实时跟踪模型的性能和使用情况。 模型更新: 定期更新和重新训练模型,以应对数据分布变化和新需求。 用户反馈: 收集用户反馈,优化模型和应用程序。 9. 文档与培训 文档编写: 编写详细的技术文档和用户手册。 培训支持: 为使用和维护模型的人员提供培训和支持。 工具和技术 数据处理: Pandas, NumPy, OpenCV 模型训练: TensorFlow, PyTorch, scikitlearn 模型优化: TensorFlow Lite, ONNX, TensorRT 部署平台: Docker, Kubernetes, AWS Lambda, GCP Functions 监控工具: Prometheus, Grafana, ELK Stack 实例项目 智能家居设备中的语音识别 需求分析: 在智能家居设备中实现语音命令识别。 数据准备: 收集和标注家居环境中的语音命令数据。 模型选择: 使用MobileNet模型进行语音识别。 模型训练: 在收集的语音数据上训练模型,并进行超参数调优。 模型优化: 使用量化技术将模型大小减小到适合嵌入式设备。 部署准备: 将模型集成到智能家居设备的固件中。 模型部署: 在生产环境中部署,并进行性能测试和优化。 监控与维护: 实时监控语音识别的性能,收集用户反馈进行改进。 通过上述路线图,开发团队可以系统地实现小模型在不同场景下的落地,从而确保模型的高效性和实用性。
2024-06-17
金融业相关AI应用场景或AI技术介绍
在金融业中,AI 有以下应用场景和技术: 1. 风控和反欺诈:用于识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:评估借款人的信用风险,帮助金融机构做出更好的贷款决策。 3. 投资分析:分析市场数据,辅助投资者做出更明智的投资决策。 4. 客户服务:提供 24/7 的客户服务,回答客户常见问题。 例如,Hebbia 获得近 1 亿美元 B 轮融资,其 AI 技术能够一次处理多达数百万份文档,在短时间内浏览数十亿份包括 PDF、PowerPoint、电子表格和转录内容等,并返回具体答案,主要面向金融服务公司,如对冲基金和投资银行,同时也适用于律师事务所等其他专业领域。
2025-04-15
stable diffusion底层技术
Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其原理包括以下几个步骤: 1. 使用新颖的文本编码器(OpenCLIP),由 LAION 开发并得到 Stability AI 的支持,将文本输入转换为向量表示,以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型,将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布,根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高分辨率,从低分辨率图像中恢复细节信息并增强图像质量。 此外,ComfyUI 的底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构,能处理多尺度特征表示。在 ComfyUI 中,去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制,在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点: 1. 可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像,且保持良好的视觉效果和真实感。 它还可以进行深度引导和结构保留的图像转换和合成,例如根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。
2025-04-15
学习AI怎么在工作中使用,提高工作效率,有必要从技术原理开始学习吗
学习 AI 在工作中使用以提高工作效率,不一定需要从技术原理开始学习。以下是一些相关的案例和建议: 案例一:GPT4VAct 是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。其应用场景在于以后互联网项目产品的原型设计自动化生成,能使生成效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。它基于 AI 学习模型,通过视觉理解技术识别网页元素,能执行点击和输入字符操作等,但目前存在一些功能尚未支持,如处理视觉信息程度有限、不支持输入特殊键码等。 案例二:对于教师来说,有专门的 AI 减负指南。例如“AI 基础工作坊用 AI 刷新你的工作流”,从理解以 GPT 为代表的 AI 工作原理开始,了解其优势短板,学习写好提示词以获得高质量内容,并基于一线教师工作场景分享优秀提示词与 AI 工具,帮助解决日常工作中的常见问题,提高工作效率。 建议:您可以根据自身工作的具体需求和特点,有针对性地选择学习方向。如果您只是想快速应用 AI 提高工作效率,可以先从了解常见的 AI 工具和应用场景入手,掌握基本的操作和提示词编写技巧。但如果您希望更深入地理解和优化 AI 在工作中的应用,了解技术原理会有一定帮助。
2025-04-15
AI相关的最前沿技术网站
以下是一些 AI 相关的前沿技术网站: 1. OpenAI:提供了诸如 GPT 等先进的语言模型和相关技术。 2. Google AI:涵盖了多种 AI 领域的研究成果和应用。 3. Microsoft Research:在 AI 方面有众多创新研究和技术展示。 此外,WaytoAGI 也是一个致力于人工智能学习的中文知识库和社区平台,汇集了上千个人工智能网站和工具,提供最新的 AI 工具、应用、智能体和行业资讯。在没有任何推广的情况下,WaytoAGI 两年时间已有超过 300 万用户和超千万次的访问量,其目标是让每个人的学习过程少走弯路,让更多的人因 AI 而强大。目前合作过的公司/产品包括阿里云、通义千问、淘宝、智谱、支付宝等。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14
2025年人工智能大模型的技术提升有哪些,是参数?推理能力?还是语料
2025 年人工智能大模型的技术提升可能体现在以下几个方面: 1. 视频生成能力:如 2024 年推出的多个先进的 AI 模型能够从文本输入生成高质量视频,相比 2023 年有显著进步。 2. 模型规模与性能:更小的模型能驱动更强的性能,如 2022 年最小能在 MMLU 上得分高于 60%的模型是具有 5400 亿参数的 PaLM,到 2024 年,参数仅 38 亿的微软 Phi3mini 也能达到相同阈值。 3. 推理能力:尽管加入了如思维链推理等机制显著提升了大语言模型的性能,但在一些需要逻辑推理的问题上,如算术和规划,尤其在超出训练范围的实例上,这些系统仍存在问题。 4. AI 代理:在短时间预算设置下,顶级 AI 系统得分高于人类专家,但随着时间预算增加,人类表现会超过 AI。 5. 算法变革:如 DeepSeek 的出现标志着算力效率拐点显现,其通过优化算法架构显著提升了算力利用效率,同时 2025 年发布的大模型呈现低参数量特征,为本地化部署到 AI 终端运行提供了可能,其训练过程聚焦于强化学习,提升了模型的推理能力。
2025-04-14