Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

OpenAI发布新交互界面Canvas

Answer

OpenAI 于 10 月 4 日发布了新交互界面 Canvas。该界面旨在提升用户在写作和编码方面的协作体验,允许用户实时编辑和反馈,提供自动化建议、代码审查和错误修复等功能,并且能根据任务复杂性自动启用,以提升交互质量与工作效率。

此外,OpenAI 于 10 月 2 日宣布完成 66 亿美元融资,估值达 1570 亿美元。此资金将加速其 AI 研究和计算能力的发展,服务超过 2.5 亿用户。近期,核心技术人员变动,研究副总裁 Barret Zoph 离职并计划创业,Mark Chen 接任首席研究官。

在技术方面,OpenAI 发布的 GPT-4o 是之前所有技术的集大成者,是新的全模态模型。该模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,对音频输入的平均反应时间为 300 毫秒,与人类对话的反应时间相似,能从数据中感悟到人类表达的情绪、语调、风格等,甚至能还原训练时的环境声音。但 OpenAI 并未公开 GPT-4o 的技术细节,唯一线索来自其内部模型炼丹师的一篇博客,项目名是 AudioLM,于 2023 年中启动,目标是用端到端的方式扩大语音模型的能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

通往 AGI 之路

《[刚刚,ChatGPT发布重磅更新!让我看到了AGI时代的终极交互形态](https://mp.weixin.qq.com/s/kiN1Ql-iDwGm5q-rZRH3-A)》ChatGPT最近推出了新功能Canvas,旨在提升用户在写作和编码方面的协作体验。该界面允许用户实时编辑和反馈,提供自动化建议、代码审查和错误修复等功能。Canvas能根据任务复杂性自动启用,提升交互质量与工作效率。《[刚刚,OpenAI官宣完成66亿美元融资!最新估值1570亿美元](https://mp.weixin.qq.com/s/B1kueYJ2T5fnP-YDRQaQCg)》OpenAI于10月2日宣布完成66亿美元融资,估值达1570亿美元。此资金将加速其AI研究和计算能力的发展,服务超过2.5亿用户。近期,核心技术人员变动,研究副总裁Barret Zoph离职并计划创业,Mark Chen接任首席研究官。[heading3]10月3日[content]《[我,资深i人,想让AI变成我的本命旅游搭子](https://mp.weixin.qq.com/s/qZixu-dBNew9d-FpD6wyLw)》作者四木相对论,本文分享了资深“i人”利用AI制定国庆旅游攻略的经历。选择目的地时,结合多款AI工具推荐,最终确定去人少的乌兰察布。通过携程和小红书的AI助手,制定了详细的行程安排,包括景点、美食和交通等,减少社交压力,体验个性化旅行。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

[title]智变时代/全面理解机器智能与生成式AI加速的新工业革命[heading1][heading3]2.3全模态智能体每一次平台型技术的出现,都会催生出新的人机交互方式,个人电脑时代的鼠标与键盘,移动时代的触摸屏,现在是智能时代,我们一度认为ChatGPT的LUI(自然语言对话式界面)就是这个时代交互的终点,但事实并非如此,知名科幻电影HER中,那种人类与AI全感知无障碍的对话形式,才是我们想要的。“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来”,Muri Murati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o,并且用了个很前卫的新概念,全模态模型- Omnimoda Model。GPT-4o是OpenAI之前所有技术的集大成者,新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,而不是用大家常用的工程手段,先各种数据先转换成文本后,交给LLM处理,然后再把输出的文本转换成对应的媒体形式。这样,GPT-4o对音频输入的平均反应时间为300毫秒,与人类对话的反应时间相似;而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等,你能听到几乎真实的人类的声音,在一段演示中感觉连训练时的环境声音都给还原出来了。OpenAI并没有公开GPT-4o的任何技术细节,唯一的线索就是来自他们内部模型炼丹师的一篇博客,项目名是AudioLM,2023年中启动,目标是用端到端的方式扩大语音模型的能力。

Others are asking
类似canvas还有哪些新工具
以下是一些类似 Canvas 的新工具: Bolt:提供写代码、预览、部署网站一条龙服务,从需求确定到网站上线都能搞定,进退灵活。 设计海报的 AI 产品: Canva(可画):受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可辅助选择颜色搭配和字体样式。 稿定设计:智能设计工具,采用先进人工智能技术,自动分析和生成设计方案。 VistaCreate:简单易用的设计平台,提供大量设计模板和元素,AI 工具可创建个性化海报,智能建议功能帮助用户快速找到合适设计元素。 Microsoft Designer:通过简单拖放界面创建演示文稿、社交媒体帖子等视觉内容,集成丰富模板库和自动图像编辑功能。 此外,还有以下工具: deogram Canvas:无限创画布与高级文本渲染,允许在图像中添加精确文字,生成高质量图像内容,支持 Magic Fill 和 Extend 功能,适用于多种任务。 Runway 发布的 ActOne 生成式角色表演工具:通过普通摄像头录制表演,生成同步虚拟角色动画,可自动捕捉情感、表情和语音,转换成多种角色风格,解决传统动画复杂流程,实现卡通和真实风格转换。
2024-12-16
OpenAI发布新交互界面Canvas
OpenAI 于 10 月 4 日推出了新功能 Canvas,旨在提升用户在写作和编码方面的协作体验。该界面允许用户实时编辑和反馈,提供自动化建议、代码审查和错误修复等功能,能根据任务复杂性自动启用,提升交互质量与工作效率。 此外,OpenAI 于 10 月 2 日宣布完成 66 亿美元融资,估值达 1570 亿美元。此资金将加速其 AI 研究和计算能力的发展,服务超过 2.5 亿用户。近期,核心技术人员变动,研究副总裁 Barret Zoph 离职并计划创业,Mark Chen 接任首席研究官。 在技术方面,OpenAI 发布的 GPT4o 是之前所有技术的集大成者,是一种全模态模型(Omnimoda Model)。新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,而非常用的工程手段。其对音频输入的平均反应时间为 300 毫秒,与人类对话的反应时间相似,能从数据中感悟到人类表达的情绪、语调、风格等,甚至能还原训练时的环境声音。但 OpenAI 并未公开 GPT4o 的任何技术细节,唯一线索来自内部模型炼丹师的一篇博客,项目名是 AudioLM,2023 年中启动,目标是用端到端的方式扩大语音模型的能力。
2024-10-04
OpenAI Operator, Anthropic Claude Coder
以下是关于 OpenAI Operator 和 Anthropic Claude Coder 的相关信息: 2025 年 Agent 领域的发展预测: 从对话助手到行动型智能体是 2025 年 Agent 技术的主流发展方向之一。计算机操作能力取得突破,传统大模型更多充当聊天助手,而 2025 年的突破在于让 Agent 直接“动手”操作电脑和网络环境。 Anthropic 在 2024 年底发布的 Claude 3.5 Sonnet 首次引入“Computer Use”能力,让 AI 像人一样通过视觉感知屏幕并操作鼠标键盘,实现了 AI 自主使用电脑的雏形。 OpenAI 在同期推出了代号“Operator”的 Agent 及其核心模型“计算机使用智能体”(CUA),使 GPT4 获得直接与图形界面交互的能力。CUA 通过强化学习将 GPT4 的视觉能力与高级推理相结合,训练 AI 可像人一样点击按钮、填表、滚动页面等。在 OpenAI 的测试中,CUA 在浏览器任务基准 WebArena 和 WebVoyager 上分别达到 38.1%和 87%的成功率,后者已接近人类水平。 其他相关信息: 宝玉日报 1 月 25 日: Deepseek 提示词框架包含四大模块:任务目的(Purpose)、计划规则(Planning Rules)、格式规则(Format Rules)、输出说明(Output)。 Anthropic 的 Claude 可通过屏幕截图获取计算机视觉信息,计算光标移动的像素坐标,并执行点击、滚动等操作。 OpenAI Operator 利用虚拟主机和 Chrome 浏览器,通过 CUA 实现网页实时操作,支持复杂任务导航。 主要的大语言模型: OpenAI 系统包括 3.5 和 4 等,3.5 模型在 11 月启动了当前的 AI 热潮,4.0 模型在春季首次发布,功能更强大。新的变种使用插件连接到互联网和其他应用程序。Code Interpreter 是一个非常强大的 ChatGPT 版本,可以运行 Python 程序。未为 OpenAI 付费只能使用 3.5。微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,连接到互联网。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是 PaLM 2 模型。 Anthropic 发布了 Claude 2,其最值得注意的是有一个非常大的上下文窗口。
2025-04-01
openai官方文档
以下是关于 OpenAI 官方文档的相关信息: 对于刚入门学习提示词的朋友,建议先有一个大模型帐号并熟悉与之对话的方式。推荐的国产平替有 。 学习 prompt 必须看 OpenAI 的官方文档,相关链接有: 。 在 OpenAI 官方的说明文档(Documentation)中,为用户提供了若干项策略以帮助更好地使用 ChatGPT。例如策略一:编写清晰的说明,即在询问中包含详细信息以获得更多相关答复。因为大模型无法在有限信息中“猜测”用户意图,所以提问时不要惜字如金,多说一些内容、多提供一些信息能有效提高回复的质量和丰富性。文中还列举了多个例子进行说明。
2025-03-29
OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?
OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。 OpenAI o1 推理能力强,适合作为架构师或算法顾问。 Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。 Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。 具体的搜索能力表现还会受到应用场景和具体任务的影响。
2025-03-21
openai deep research使用技巧
OpenAI 的 Deep Research 功能能够整合多源信息,进行复杂的信息查询与分析,并生成专业水准的报告,同时详细展示思考和搜索过程。目前,该功能仅支持文本输出,未来还将增加嵌入式图片、数据可视化等功能。使用入口为在 ChatGPT 输入框中选择「Deep Research」模式,输入问题后即可开始体验。 在 OpenAI 推出「Deep Research」功能一天后,Hugging Face 的工程师迅速联合推出了免费开源的版本 Open Deep Research,能自主浏览网页、滚动页面、处理文件,以及基于数据进行计算。使用入口为前往 Demo 网站(opendeepresearch.vercel.app)体验。 Deep Research 让 AI 自动完成多步骤研究任务,快速分析海量信息并生成专业报告,具备自动化信息汇总、文献引用与多领域适用性,适合科研、工程、金融等行业。目前向 Pro 用户开放,未来将扩展至 Plus 和 Team 用户,并提供更强大的功能。 该智能体基于优化版 OpenAI o3 模型,结合网络浏览和 Python 分析能力,实现高效研究,适用于科学、政策、工程等高强度知识工作,也能帮助购物者做复杂决策。Pro 用户已可使用,后续将逐步向 Plus、Team 和企业用户开放。
2025-03-08
openAI的deep research有哪些缺陷
OpenAI 的 Deep Research 存在以下一些缺陷: 1. 具有滞后性,在某些信息上无法做到及时更新。 2. 存在信息混乱的问题,无法完全替代人类的深度思考。
2025-03-03
Monica和Openai的记忆功能是如何让大模型产生记忆的?是什么原理?
大模型的记忆功能实现方式较为复杂,不同的模型可能有所不同。 OpenAI 的模型中,大模型 LLM 扮演了“大脑”的角色,其记忆功能可能通过“Agent = LLM + 规划 + 记忆 + 工具使用”的基础架构来实现。但需要注意的是,对于 ChatGPT 这类模型,实际上其本质上并没有直接的记忆功能。它能理解之前的交流内容,是因为每次将之前的对话内容作为新的输入重新提供给模型。这种记忆功能并非由大型模型直接实现,而是通过在别处进行存储来达成。 如果对话内容过长,可能会影响模型的整体性能。解决这个问题的一个简单方法是启动另一个对话框。对于之前的数据,通常只能进行总结。
2025-03-01
交互式 AI 应用
以下是关于交互式 AI 应用的相关信息: 3 月 25 日 AI 资讯汇总中的用例: 制作交互式地球仪,可呈现地球自转、调整光照。 制作雅思单词交互式练习,能生成 4 选 1 英语单词填空题,并以可点选交互的 HTML 格式呈现,同时提供答案和中文解析,还有“分值显示”。 制作“日程备忘”交互式应用,可完成事务添加、定时提醒、完成设置及任务倒数,并有 emoji 表情作为图标装饰。 美国 AI 投融资事件中的 Sizzle AI:是一家位于纽约的公司,致力于开发直接面向学习者的人工智能产品,这是一款免费的交互式应用程序,使用人工智能帮助学习者逐步解决问题,引导学生完成解决问题的每一步,适合初中和高中学生,目前提供英语版本,并计划扩展功能。 90 分钟从 0 开始打造你的第一个 Coze 应用中提到:智能体开发从最初的 chatbot 只有对话框,到有了更多交互方式,因用户需求推出了 AI 应用,以证件照为例说明了以前实现成本高,现在有客户端需求并做了相关智能体和交互。在创建 AI 应用时,要学习操作界面、业务逻辑和用户界面等。
2025-04-10
罗列具体的AI模型产品和具体的AI技术创新点,并总结AI技术的发展趋势,并说明这些发展趋势为用户的交互体验带来了什么样的改变?按照时间线将以上内容梳理出来
以下是按照您的需求梳理的内容: 时间线 早期: 从图灵测试、早期的图灵机器人和 ELISA 开始,到 IBM 的语音控制打印机、完全由人工智能创作的小说、微软的同声传译系统。 近年来: OpenAI 发布 ChatGPT 模型,引发用户习惯从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 大模型创新方面,架构优化加速涌现,融合迭代成为趋势。Scaling Law 泛化,推理能力成为关键,倒逼计算和数据变革。AGI 探索中,视频生成点燃世界模型,空间智能统一虚拟和现实。 在应用方面,AI 在文科白领的个人助理、呼叫中心、文本处理和教育等领域表现出色,能完成 80%到 90%的工作;对于工科白领,特别是程序员,能简化代码检索和调整;在蓝领领域,自动驾驶取得显著进展。但在复杂任务方面仍有改进空间。 第一轮洗牌结束,聚焦 20 赛道 5 大场景,多领域竞速中运营大于技术,AI 助手成为竞争重点。AI+X 赋能类产品发展迅速,原生 AI 爆款难求。多模态上马,Agent 席卷一切,高度个性化呼之欲出。 人工智能发展经历了萌芽、积累沉淀到如今大模型和多模态模型百花齐放的阶段。大模型由数据、算法、算力构成,算法有技术架构的迭代,如英伟达的显卡辅助模型训练,数据质量对生成理想的大模型至关重要。 未来: 李沐预测技术发展可能催生出革命性的应用形态,但 AI 离真正变革世界还有一段距离。 预计 AI 在蓝领工作的初步应用至少需要 5 年时间。 AI 技术创新点: 大模型创新:架构优化加速涌现,融合迭代大势所趋。 Scaling Law 泛化:推理能力成皇冠明珠,倒逼计算和数据变革。 AGI 探索:视频生成点燃世界模型,空间智能统⼀虚拟和现实。 AI 技术的发展趋势: 模型架构不断优化和融合。 更加注重推理能力的提升。 探索 AGI 领域,实现虚拟和现实的统一。 应用格局不断洗牌,聚焦特定赛道和场景。 多模态和 Agent 技术的广泛应用。 对用户交互体验的改变: 用户习惯从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 AI 应用为用户提供辅助,在多个领域帮助完成任务。
2025-03-31
AI技术发展时间线,罗列具体的AI模型产品和具体的AI技术创新点,并总结AI技术的发展趋势,并说明这些发展趋势为用户的交互体验带来了什么样的改变?
以下是关于 AI 技术发展的相关内容: AI 技术发展时间线: 从图灵测试、早期的图灵机器人和 ELISA,到 IBM 的语音控制打印机、完全由人工智能创作的小说、微软的同声传译系统,再到 OpenAI 发布 ChatGPT 模型,经历了萌芽、积累沉淀到如今大模型和多模态模型百花齐放的阶段。 具体的 AI 模型产品: ChatGPT 改变了用户习惯,从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 具体的 AI 技术创新点: 大模型创新方面,架构优化加速涌现,融合迭代成为趋势。 Scaling Law 泛化,推理能力成为皇冠明珠,倒逼计算和数据变革。 AGI 探索中,视频生成点燃世界模型,空间智能统一虚拟和现实。 AI 技术的发展趋势: 大模型创新:架构优化加速涌现,融合迭代大势所趋。 应用格局:第一轮洗牌结束,聚焦 20 赛道 5 大场景。 应用竞争:多领域竞速运营大于技术,AI 助手兵家必争。 应用增长:AI+X 赋能类产品大干快上,原生 AI 爆款难求。 产品趋势:多模态上马,Agent 席卷一切,高度个性化呼之欲出。 智变千行百业:左手变革生产力,右手重塑行业生态。 行业渗透率:数据基础决定初速度,用户需求成为加速度。 创投:投融资马太效应明显,国家队出手频率提升。 对用户交互体验的改变: ChatGPT 使用户从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 在文科白领方面,AI 能完成 80%到 90%的工作,如个人助理、呼叫中心、文本处理和教育等领域。 对于工科白领,特别是程序员,AI 能简化代码检索和调整。 在蓝领领域,AI 在自动驾驶方面取得显著进展。
2025-03-31
ai画原型图和交互涉及
AI 画原型图和交互涉及以下方面: 在 AI 作图中,趣味性创作需要具备反差、反逻辑、超现实等元素,美感创作要求美术基础不出错且形式与内容结合。例如纹身图创作,需强调人机交互,对图进行二次、多次调整。以魔法少女为例,可通过发散联想写提示词,展示不同详略程度提示词的生图效果,并进行实操。 赛题实操方面,以中式或日式风格的女孩为例,详细讲解描述主体特征的方法,包括服装、发型、妆容等,还提及描述元素、环境的要点。此外,介绍了深图尺寸更新,讲解画面风格控制词,以及写风格与 Lora 可能存在的冲突情况。 Lora 权重及提示词试用中,先探讨人像特写时背景设定,接着尝试写动植物提示词,如蛇、孔雀等,分析生成画面与预期差异。还提及提交图需涵盖的内容,包括展示室内外画风,并展示之前测试 Lora 的图片,讲解做图思路及提交 6 张图的相关要点。 AppAgent 是一种让 AI 模仿人类在手机上操作 APP 的技术,对于涉及原型和 UE 的工作,基于模仿数据的反推可使设计出的产品原型和 UE 交互更优。它是一种 AI 学习模型,由腾讯和德州大学达拉斯分校的研究团开发。主要功能特点包括多模态代理,能够处理和理解多种类型的信息;直观交互,能通过模仿人类直观动作与智能手机交互。
2025-03-28
UI交互设计大模型
以下是关于 UI 交互设计大模型的相关内容: ComfyUI ollama 本地大模型部署: 1. 先下载 ollama 安装。安装好后不会有任何界面弹出,可以在电脑桌面右下角或者隐藏图标里面找到。 2. 之后再去下载对应的模型,选择模型,复制对应的命令。 3. 打开命令行界面,输入对应的模型获取命令,等待下载完成。 4. 下载的模型会保存到 D:\\ollama\\blobs 。 5. Docker 安装时会下载一些文件,安装后改下目录,不要放在 C 盘。 6. Open webui 安装,输入相关命令。安装成功后,回到 docker 点击,会自动打开网页。第一次使用,需要注册一个账号,选择一个下载好的模型就可以开始使用。 7. 若出现端口占用的错误,运行下面两条命令可以解决。 8. 相关链接: ComfyUI ollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ Docker:https://www.docker.com/ Open webui:https://openwebui.com/ 通过 Open WebUI 使用大模型: 在默认情况下,与大模型的交互在终端中进行,但这种方式较古老。大模型有交互客户端 Open WebUI。Open WebUI 是 github 上的开源项目,参考其官方文档 https://docs.openwebui.com/gettingstarted/ 进行下载和安装。 1. 安装之前先安装 Docker,Win 或 Mac 系统参考文档:,注意下载适配电脑系统的版本。Linux 系统请自行上网找教程。 2. 官方文档中有两种安装 Open WebUI 的方式:ollama 和 open webui 一起安装、仅仅安装 open webui。若已安装 ollama,只需要安装 open webui 即可,复制相关命令。安装下载完成后即可使用。 大模型时代的产品特点: 大模型的交互方式是 NUI(自然用户界面),通过自然语言文本、语音、输入输出图片等直接交互,与现在熟悉的 GUI(图形用户界面)差异很大。现在习惯在 GUI 界面通过点击按钮与机器交互,需要一定学习成本。而 NUI 更符合人的直觉,用户几乎无需特别学习,通过对话操作,但大模型产品对普通用户使用门槛较高,用户留存率和粘性不如主流 App。若未来大模型产品都是 NUI 的,可能对整个信息产业带来深远影响。
2025-03-05
自动生成交互原型
以下是关于自动生成交互原型的相关信息: Figma 在上周的发布会上带来了多项更新,其中包括 AI 自动生成交互原型的功能。使用此功能时,不需要自己连线,AI 可以自动链接合适的设计稿页面生成交互原型。但目前 AI 能力尚未全部开放,只提供给有限的用户测试。 此外,Creatie AI 是一款 AI 驱动的设计神器,能够在几分钟内设计网站或程序,融合思维导图、设计、协作、原型制作、代码交接等功能,自动分析设计文件,创建统一样式库,快速转化为高保真可交互原型并生成代码。其网址为:http://creatie.ai 。
2025-02-20
点击AI应用主界面的某一个图片组件触发另一个工作流,如何设置入参
要在 AI 应用主界面设置点击某一图片组件触发另一个工作流的入参,具体步骤如下: 1. 工作流的入参设置为 File>Image。 2. 入参配置为 {{ImageUpload1.value}}是获取图片上传组件的第一张图片,因为组件可以上传多张图片,所以需要通过下标数来获取,数组的下标从 0 开始。 3. {{psy_ai.error}}是工作流的报错信息。 4. 当用户上传图片点击按钮时会进入加载状态,加载状态通过 {{psy_ai.loading}} 控制。提交按钮配置中,属性设置包括宽度百分比 95%、高度固定 50px、颜色填充 295DC1、圆角 12、加载状态 {{psy_ai.loading}}。事件配置为事件类型 点击时,执行动作 调用工作流,WorkFlow(工作流) psy_ai,失败提示 工作流调用失败,原因:{{psy_ai.error}}。 5. 当工作流运行时,右边的内容显示容器包含两个组件,图片组件显示加载中的 gif 图片(默认隐藏),其来源为本地上传加载中 gif 图,尺寸为宽度百分比 100%,高度适应内容,可见性隐藏根据 {{!psy_ai.loading}},即当 loading 为 true 时隐藏,前面加「!」取反,工作流运行中显示。Markdown 组件显示分析内容,内容显示是 psy_ai 工作流输出的结果,隐藏根据 {{psy_ai.loading}},psy_ai 工作流运行完显示。 至此,页面所有的布局和数据交互就全部完成了。
2025-03-29
扣子工作流与用户界面搭建
以下是关于扣子工作流与用户界面搭建的相关内容: 一、工作流搭建 1. 进入扣子(coze.cn),选中「创建应用」,再选中「创建空白应用」,输入「应用名称」进入项目搭建页面。 2. 新增一个工作流,工作流名称叫做 psy_ai。 3. 该项目的业务逻辑是通过上传儿童的绘画作品分析心理状态,分析过程分为多个步骤实现,工作流的编排流程图为:上传作品>多个多模态大模型识别不同元素>分别提取特种并分析>综合分析结果>给出评估与建议。 4. 工作流从左到右分为三组大模型: 第一组多模态大模型主要作用是分析图片元素:整体特征、房屋特征、树木特征、人物特征。 第二组通用大模型主要是对提取到的信息进行对应内容的总结分析。 第三组通用大模型先汇总结果,然后再分别提取不同(诊断评估与建议)的结果。 5. 所有大模型节点对应的 prompt(提示词):文档地址:https://vcn5grhrq8y0.feishu.cn/wiki/Z3NzwrtEKi9h5mk0rTOcAT0xnTc 二、用户界面搭建 1. 选择「桌面网页」类型。 2. 以《小喵星座日历》扣子网页应用为例: 板块 1:输入个人信息和生成图片,包含 2 个选项、1 个按钮、分割图、1 个输入框、1 个按钮。点击生成按钮会触发事件,调用日历生成工作流,生成中时生成按钮禁用,用 loading 按钮展示动态变化。 板块 2:生成星座日历图片,新建一个容器,包含一个文本组件、一个列表组件。 板块 3:查看星座生成记录,新建一个容器,包含一个按钮组件、一个列表组件,点击按钮调用读取生成历史的工作流,列表绑定生成历史工作流的输出结果。 板块 4:查看示例,新建一个容器,包含一个文本组件、4 个图片组件。 三、功能页相关配置 1. {{ImageUpload1.value}}用于获取图片上传组件的第一张图片。 2. {{psy_ai.error}}是工作流的报错信息。 3. 当用户上传图片点击按钮时会进入在家中的状态,右边内容显示容器里有两个组件: 图片组件显示加载中的 gif 图片(默认隐藏),图片来源本地上传加载中 gif 图,尺寸宽度为百分比 100%,高度适应内容,可见性根据{{!psy_ai.loading}}控制,工作流运行中显示。 Markdown 组件显示分析内容,隐藏根据{{psy_ai.loading}},工作流运行完显示。 至此,页面所有的布局和数据交互全部完成。
2025-03-25
需要一个设计ui界面的ai
以下为您介绍一些可用于设计 UI 界面的 AI 工具及相关操作: Midjourney 1. 页面指令: 若想指定生成某个页面(如首页、登录页等),只需添加页面指令描述,例如“landing page”可生成社交平台的登录页,“Profile Page”可生成人力资源类产品的个人资料页。 2. 主体物指令: 确定产品类型后,可通过加入主体描述来加强图片生成效果。如生鲜类 APP 突显蔬果新鲜,可加“水果、蔬菜、新鲜”等关键词。 3. 配色指令: 确定 APP 类型和主体描述后,可定制主题色,如输入“xxx color scheme”。不同类型有不同示例,如餐饮类输入“beach style color”可得沙滩风饮料订购页面。 4. 风格指令: 若配色指令无法满足要求,可指定艺术风格、艺术家等名字。如天气类输入“Pop art”可得波普艺术风格的天气 APP,社交类输入“Kpop fashion”可得时尚流行的页面效果。 UIGENT1 这是一个开源 UI 设计生成工具,基于 Qwen2.5Coder7B 微调,能根据提示生成标准 HTML/CSS 代码,擅长基础前端页面,如仪表盘、登录页、注册表单等。 Galileo AI 可根据文字或图片生成完整 UI 设计,并导出 HTML 和 Figma 文件。 通过一系列的 AI 出图操作能发现,Midjourney 产出的设计图视觉效果不错,更适合在 APP 设计的初始阶段,如头脑风暴和风格探索等过程中,为设计师提供更多灵感和创意。但想让 Midjourney 产出的 UI 设计图直接落地开发,目前仍有距离。
2025-03-14
我是一个UI界面设计师,现在我需要找一个UI界面设计的AI软件,能根据我的文字方案生成高大上的可视化界面UI图,或者能根据我设计的基本的UI界面图能进行优化
以下为您推荐几款可用于 UI 界面设计的 AI 软件: 1. Midjourney: 能生成数据图标、B 端图标设计、音乐软件 UI 设计等。 生成的图片在某些方面质感不错,但 UI 设计可能不规范、文字较乱,目前只能作为风格参考。 对于完全不懂 AI 绘图的新手来说容易上手。 设计指令:如果没想好输入哪些指令,可以先用指令模板「ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble」,把里面的“类型”替换成想设计的产品的关键词描述(英文),就能生成想要的 UI 设计图。 2. 星流一站式 AI 设计工具: 具有无限画布区域,包括浏览视图、操作快捷键查询、图像快捷修改。 浏览视图包括视图百分比调节、聚焦、画布清理等功能。 图像快捷操作有细节微调、整体微调、增强模型、提示词、用作图生图、用作图片参考等。 支持图像分享与信息查看,包括图像信息查看、生成分享链接与发送到 LiblibAI 等。
2025-02-13
为DEESKEEP搭建一个本地知识库,使用WORD和PDF文件的频率比较高,中文界面。
很抱歉,目前没有关于为 DEESKEEP 搭建本地知识库且使用 WORD 和 PDF 文件频率较高、中文界面的相关内容。但一般来说,您可以考虑以下步骤: 1. 确定知识库的结构和分类,以便有效地组织和存储文件。 2. 选择适合的工具或软件来管理本地知识库,确保其支持中文界面和对 WORD、PDF 文件的良好处理。 3. 对 WORD 和 PDF 文件进行整理和标记,以便于快速检索和查找。 4. 建立索引和目录,提高文件的访问效率。 您还可以通过在网上搜索相关的技术教程和案例,获取更详细和具体的指导。
2025-02-10
我可以用哪些工具让AI生成好看的移动端UI界面设计?
以下是一些可以让 AI 生成好看的移动端 UI 界面设计的工具及相关方法: 1. Midjourney: 是目前较容易上手的工具,适合新手入门。 对于 UI/UX 设计师,能加快设计流程,在主体、配色、风格等方向探索 AI 在设计中的应用。 生成 UI 设计图的指令:如果没想好要输入哪些指令,可以先用指令模板「ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble」,把里面的“类型”替换成您想设计的产品的关键词描述(英文),就能生成想要的 UI 设计图。例如,出行类关键词可以是“距离、车费、费用结算、优惠金额、地图”等;餐饮类关键词可以是“介绍咖啡的特色、口味、咖啡豆产地、价格”等;运动类关键词可以是“卡路里、步数、距离、某种运动”等描述。 如果想指定生成某个页面(首页、登录页等),只需要再加一段页面指令描述,例如「landing page、Profile Page」。 产出的设计图视觉效果不错,更适合在 APP 设计的初始阶段,如头脑风暴和风格探索等过程中,为设计师提供更多灵感和创意。 2. Coze: 可以直接使用 Coze 的 API 对接前端 UI 框架,将工作流逻辑集中在工程模板端,实现前后端分离的处理方式。 也可以直接调用大模型 API,并通过前端代码实现提示词处理和逻辑控制,将交互流程完全放入前端代码中。 实现文件上传可通过 Coze 的。 搭建 Demo 最简单的方式是首先绘制草图,然后借助多模态 AI 工具(如 GPT/Claude)生成初步的前端结构代码。前端开发语言包括用于构建网页基础框架、定义整体页面结构的 HTML;负责网页布局样式美化、使页面视觉效果更优美的 CSS;实现交互逻辑,如信息处理、网络请求及动态交互功能的 JavaScript。
2025-01-21