Navigate to WaytoAGI Wiki →
Home/All Questions
图像生成
图像生成是 AIGC 的一个重要领域,离不开深度学习算法,如生成对抗网络(GANs)、变分自编码器(VAEs)以及 Stable Diffusion 等,以创建与现实世界图像视觉相似的新图像。 图像生成可用于多种场景,如数据增强以提高机器学习模型的性能,也可用于创造艺术、生成产品图像(如艺术作品、虚拟现实场景或图像修复等)。 一些具有代表性的海外项目包括: Stable Diffusion:文本生成图像模型,主要由 VAE、UNet 网络和 CLIP 文本编码器组成。首先使用 CLIP 模型将文本转换为表征形式,然后引导扩散模型 UNet 在低维表征上进行扩散,之后将扩散之后的低维表征送入 VAE 中的解码器,从而实现图像生成。 DALLE 3(Open AI):OpenAI 基于 ChatGPT 构建的一种新型神经网络,可以从文字说明直接生成图像。 StyleGAN 2(NVIDIA):一种生成对抗网络,可以生成非常逼真的人脸图像。 DCGAN(Deep Convolutional GAN):一种使用卷积神经网络的生成对抗网络,可生成各种类型的图像。 在图像生成的用法方面,图像生成端点允许您在给定文本提示的情况下创建原始图像。生成的图像的大小可以为 256x256、512x512 或 1024x1024 像素。较小的尺寸生成速度更快。您可以使用 n 参数一次请求 1 10 张图像。描述越详细,就越有可能获得您或您的最终用户想要的结果。您可以探索 DALL·E 预览应用程序中的示例以获得更多提示灵感。 图像编辑端点允许您通过上传蒙版来编辑和扩展图像。遮罩的透明区域指示应编辑图像的位置,提示应描述完整的新图像,而不仅仅是擦除区域。 AI 绘图 Imagen 3 具有以下功能点和优势: 功能点: 图像生成:根据用户输入的 Prompt 生成图像。 Prompt 智能拆解:能够自动拆解用户输入的 Prompt,并提供下拉框选项。 自动联想:提供自动联想功能,帮助用户选择更合适的词汇。 优势: 无需排队:用户可以直接使用,无需排队。 免费使用:目前 Imagen 3 是免费提供给用户使用的。 交互人性化:提供了人性化的交互设计,如自动联想和下拉框选项。 语义理解:具有较好的语义理解能力,能够根据 Prompt 生成符合描述的图像。 灵活性:用户可以根据自动联想的功能,灵活调整 Prompt 以生成不同的图像。
2025-03-23
降本增效的情况下建筑设计院自己开发AI和应用好现有的AI哪个选择更好
在降本增效的情况下,建筑设计院是自己开发 AI 还是应用现有的 AI,需要综合多方面因素来考虑。 现有的 AI 工具已经在很多领域带来了显著的优势,例如: 1. 提高效率:能够快速产生创意效果和设计方案。 2. 丰富设计效果:极大地丰富了设计自由度,实现各种创意。 3. 拓展工作流程:促使设计工作流程重新组合再造,拓展设计师的思维边界。 同时,也有一些专门针对建筑设计的现有 AI 工具,比如: 1. HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载自主训练的建筑大模型,软件 UI 和设计成果颜值在线。 2. Maket.ai:面向住宅行业,在户型和室内软装设计方面有 AI 技术探索,能根据输入需求自动生成户型图。 3. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入标准和规范约束设计结果。 4. Fast AI 人工智能审图平台:形成全自动智能审图流程,能实现建筑全寿命周期内信息的集成与管理。 然而,自己开发 AI 也有其潜在的好处,比如可以更精准地满足设计院的特定需求和业务特点。但开发 AI 需要投入大量的资源和时间,包括技术人才、资金、研发周期等。 综上所述,建筑设计院应根据自身的技术实力、资源状况、业务需求的独特性等因素来权衡选择。如果资源有限且现有工具能满足大部分需求,应用现有的 AI 可能是更好的选择;如果对特定功能有极高的要求且有足够的能力和资源支持,自己开发 AI 也未尝不可。
2025-03-23
即梦提示词的描述结构框架是什么
即梦提示词的描述结构框架主要包括以下方面: 1. 提示词基础架构: 主体/场景 场景描述 环境描述 艺术风格/媒介 调整句式和语序,避免主体物过多/复杂、主体物分散的句式描述。 避免模糊的术语表达,尽可能准确。 使用更加流畅准确的口语化措辞,避免过度文学化的叙述。 丰富、准确和完整的描述才能生成特定艺术风格、满足需求的视频。 2. 提示词与画面联想程度的说明: 以单帧图像为例介绍提示词与画面联想的关系。 基础词示例:玻璃桌上的咖啡杯,杯子外面写着单词 LOVE。 适度联想扩充:花园里(具体的位置描述)的透明(材质描述)玻璃桌上的咖啡杯,杯子外面写着单词 LOVE,周围满是盛开的鲜花(具体的位置描述/环境描述),和煦的阳光洒满整个花园(环境描述),Claude Monet(艺术家风格),印象派风格(艺术流派风格)。 联想关键点: 具体详实的位置描述/环境描述:笼统来讲就是在进行构图,可以帮助构建画面的基本呈现效果。 艺术风格描述:进一步提升效果和氛围,统一画面风格。 此外,结构化提示词框架还包括: 1. 标识符:如 、<> 等符号(、 也是),依次标识标题、变量,控制内容层级,用于标识层次结构。 2. 属性词:如 Role、Profile、Initialization 等等,包含语义,是对模块下内容的总结和提示,用于标识语义结构。 您可以把结构化提示词框架当做提示词的八股文标准,在不了解如何开始进行提示词设计的时候,当做一个通用的标准格式来使用。结构化提示词的概念在行业内应用广泛且成熟度较高,您可以在即刻、知识星球、知乎等很多地方看到优秀的类型案例。例如以下案例: 关于结构化提示词的理论感兴趣想要进一步了解更多信息的朋友,推荐大家阅读李继刚和云中江树的详细理论原文: 结构化语法提示词示例:可以在 AGI 的下列板块看到非常多优秀的结构化 Prompt 示例。
2025-03-23
我想学习AGI, 你会怎么帮助我
以下是一些帮助您学习 AGI 的建议和途径: 1. 访问,您可以在这里: 和 AI 知识库对话,询问任何关于 AI 的问题。 查找集合的精选 AI 网站,按需求找到适合您的工具。 参考集合的精选提示词,并复制到 AI 对话网站来使用。 查看知识库精选,获取每天知识库的精华内容。 2. 参考通往 AGI 之路知识库的使用指南: 智能纪要部分,博主会精美地解释六大策略,小七姐在社区带来共学课程并有直播分享及回放,像喂饭教程般帮助理解 prompt。 智能章节部分,提到提示词很关键,智能体由大语言模型衍生而来,讲述了智能体进阶案例拆解,推荐景淮老师的相关成果,阐述扣子、千帆百炼属于智能体范畴,扣子更偏 ToC 应用。 Cos 平台功能全面,社区共学成果显著,建议先吃透 prompt 再看相关内容,官方文档内容全面,社区小伙伴参加 cos 比赛常拿大奖,有共学活动,获奖小伙伴会分享经验。 3. 阅读通往 AGI 之路介绍.pdf_: 按照记忆、理解、应用、分析、评价、创造的步骤来学习,从认识历史、基本术语等开始,进一步了解主要思想,深入了解 AI 对话、绘画语音产品并用于解决实际问题,大量阅读各类文章、视频以及报告,通过课程与书籍深入学习,提出自己的观点和论断,尝试创造新想法。 希望以上内容对您学习 AGI 有所帮助。
2025-03-23
绘画小白,怎么知道即梦绘画的提示词怎么写
对于绘画小白来说,以下是一些关于即梦绘画提示词编写的方法和要点: 1. 用自然语言详细描述画面内容,避免使用废话词。比如,如果要画一个人物,要描述其服饰、发型、妆容、配饰、表情、背景等元素。 2. 强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。 3. 考虑趣味性与美感,趣味性可以通过反差、反逻辑、超现实方式带来视觉冲击,美感需在美术基础不出错前提下形式与内容结合。 4. 对于特定的主题,如魔法少女,发散联想其服饰、场景、相关元素等,并可采用反逻辑反差方式。 5. 了解光源知识也很重要,光源包含自然光(如太阳光、月光)、人造光(如手电筒、路灯、闪光灯等,掌控性和对比度强)、环境光(来自周围自然环境,是折射光线,在表现主体与环境关系时重要)。不同的光,如暖光与冷光会带来不同情绪,光的方向对画面叙事很重要,不同方向光线能体现氛围、表达情绪。光的质量(硬光、强光、柔光)也会对塑造角色形象产生作用,掌握这些知识对写提示词很重要。 6. 可以参考一些实际的示例,比如皮克斯风格的三宫格漫画:一只小狗,坐在办公桌前,文字“KPI达标了吗?”。一只小狗,拿着一个写满计划的大本子,微微皱着眉头,文字“OKR写好了吗?”。一只小狗坐在电脑前,文字“PPT做好了吗?”。 您可以按照以上方法和要点,结合自己的创意和需求,尝试编写即梦绘画的提示词。
2025-03-23
有没有一个图片收集的工具、
目前常见的图片收集工具包括 Pinterest 、Unsplash 、Flickr 等。Pinterest 是一个以分享和发现创意图片为主的平台;Unsplash 提供了大量高质量的无版权图片资源;Flickr 则是一个老牌的图片分享社区。您可以根据自己的需求选择适合的工具。
2025-03-23
常用的提示词有哪些?
以下是一些常用的提示词: AI 绘画方面: 画面构图提示词:Chest Shot脸部特写。 情绪和氛围提示词:moody 暗黑的、happy 鲜艳的/浅色的、dark 黑暗的、epic detail 超细节的、Brutal 残酷的/破碎的、dramatic contrast 强烈对比的、hopeful 充满希望的、anxious 焦虑的、depressed 沮丧、elated 高兴地、upset 难过的、fearful 令人恐惧的、hateful 令人憎恨的、happy 高兴、excited 兴奋、angry 生气、afraid 害怕。 【SD】文生图方面: 正向提示词:, drawing, paintbrush。 反向提示词:NSFw, 。 星流一站式 AI 设计工具方面: 提示词用于描绘想生成的画面,输入语言支持中英文。星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发)。 写好提示词的要点包括:内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质,如一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量;调整负面提示词,可点击提示框下方的齿轮按钮,负面提示词能帮助 AI 理解不想生成的内容,如不好的质量、低像素、模糊、水印;利用“加权重”功能,在功能框增加提示词并进行加权重调节,权重数值越大越优先,还可对已有的提示词权重进行编辑。此外,还有一些辅助功能,如翻译功能可一键将提示词翻译成英文,删除所有提示词可清空提示词框,会员加速能提升图像生图速度和效率。小白用户可以点击提示词上方官方预设词组进行生图。
2025-03-22
写论文的指令有哪些
以下是一些写论文的指令相关内容: 1. 可以向 LLM 寻求写作建议,直接要求它帮忙写论文,例如提供关于个人背景的信息,如“根据以下关于我的信息,写一篇四段的大学申请论文:我来自西班牙巴塞罗那。尽管我的童年经历了一些创伤性事件,比如我 6 岁时父亲去世,但我仍然认为我有一个相当快乐的童年。在我的童年时期,我经常换学校,从公立学校到非常宗教的私立学校。我做过的最‘异国情调’的事情之一是在爱达荷州的双子瀑布与我的大家庭一起度过六年级。我很早就开始工作了。我的第一份工作是 13 岁时的英语老师。在那之后,以及在我的学习过程中,我做过老师、服务员,甚至建筑工人。” 2. 写提示词时,要结合指令、问题、输入数据和示例来构建。为得到结果,必须包含指令或问题,其他元素可选。比如在提问如何撰写大学入学申请论文的基础上,更高级的提示词可包括关于模型应如何回答问题的指令,如“我该如何撰写我的大学入学申请论文?请给我一些建议,包括我应该包含的不同部分、我应该使用什么样的语气,以及我应该避免使用的表达。” 3. 使用分隔符清晰区分输入的不同部分,如三重引号、XML 标签、章节标题等,帮助模型区分不同类型的文本内容。例如,“使用三重引号分隔的文本,总结成一句俳句。”“你将收到两篇关于同一主题的文章(用 XML 标签分隔)。请先分别总结每篇文章的论点,然后指出哪篇文章的论点更有说服力,并解释原因。”“你将收到一篇论文摘要和一个建议的标题。论文标题应该能让读者对论文主题有一个好的理解,同时也应该具有吸引力。如果标题不符合这些标准,请提出 5 个替代标题。”
2025-03-22
tell me about Gen AI companies worth joining
以下是一些关于生成式 AI 公司的信息: 从访问量数据来看,在生成式 AI 领域,Whimsical AI 表现较为突出,其在 2023 年 4 月和 2024 年 3 月的访问量排名靠前,且处于增长态势。2021 年融资 3000 万美元,2024 年 3 月的月访问量达到 237 万。 生成式 AI 赛道总体趋势平稳增长,月平均增速为 34 万 PV/月,原生产品占比中等。竞争方面,Top1 公司占比 32%,Top3 公司占比 82%,马太效应较弱,网络效应中等,大厂入局占比较低,技术门槛中等。 部分产品访问量有下跌情况,如 Rewind Al 月访问量减少了 21 万,降低了 49%;Personal.ai 月访问量减少了 14 万,降低了 56%;Turdo AI 月访问量减少 3 万。 在创业工具方面,总体趋势快速增长,月平均增速为 88 万 PV/月,原生产品占比高。Top1 公司为 Tally Form,其估值未知,最新月 PV 为 88 万。 2023 年生成式人工智能在消费市场迅速发展,2024 年企业领域的收入机会预计数倍于消费市场。过去几个月,企业对生成式 AI 的资源配置和态度发生显著变化,预算增加,更多应用部署在较小的开源模型上,业务从早期实验转移到生产环境。为企业构建解决方案的人工智能初创公司若能预见痛点、从重服务模式转向构建可扩展产品,将有机会抓住投资浪潮并占据重要市场份额。
2025-03-22
我想学习有关ai的知识,但是并不是单单的系统性的学,而是想利用现有的模型比如说deep seekr1模型来训练一个自己的模型这样的,来实现某些功能
以下是关于 DeepSeek R1 模型的相关知识: 1. DeepSeek R1 引入了纯强化学习(RL),不依赖大量人类标注数据,而是通过自我探索和试错来学习。在“冷启动”阶段,仅通过少量人工精选的思维链数据进行初步引导,建立符合人类阅读习惯的推理表达范式,随后主要依靠强化学习,在奖励系统的反馈下(只对结果准确率与回答格式进行奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。准确率奖励用于评估最终答案是否正确,格式奖励强制结构化输出,让模型把思考过程置于<think></think>标签之间。 2. 与其他模型相比,Alpha Zero 只训练了三天,就以 100 比 0 的战绩完胜 Alpha Go Lee,Alpha Go(老)采用监督学习+强化学习,学习人类棋谱,更接近人类职业棋手风格,继承了人类的局限,Alpha Zero(新)完全摒弃人类数据的纯强化学习,从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。DeepSeek R1 在训练中更注重学习推理的底层策略,培养通用推理能力,使其能够实现跨领域的知识迁移运用和推理解答。 3. 使用 DeepSeek R1 给老外起中文名的操作指引: 点击邀请,复制邀请链接或下载邀请海报分享给好友。 打开火山引擎的模型页面(https://zjsms.com/iP5QRuGW/),使用习惯的方式登录。 登录后点击左侧列表里的“在线推理”,再点击“快速入门”。 获取 API Key,点击“创建 API Key”,可修改名字后创建,创建完成后点击“查看并选择”,将“已复制”的提示内容找个地方存一下。 复制 R1 的调用示例代码,选择模型为“DeepSeek R1”,修改示例代码中的相关内容,然后点击右侧的复制按钮,将代码找个地方存起来。 上述接入方法是快速入门方式,平台会自动创建在线推理接入点,并提供 50 万 Token 的免费额度,用完才需充值。如需充值,点击页面右上角的“费用”》“充值汇款”,根据账单适当充值。 4. DeepSeek R1 不同于先前的普通模型,它与 OpenAI 现在最先进的模型 o1、o3 同属于基于强化学习 RL 的推理模型。在回答用户问题前,R1 会先进行“自问自答”式的推理思考,提升最终回答的质量,这种“自问自答”是在模拟人类的深度思考,其“聪明”源于独特的“教育方式”,在其他模型还在接受“填鸭式教育”时,它已率先进入“自学成才”新阶段。
2025-03-22