Navigate to WaytoAGI Wiki →
Home/All Questions
老照片动起来
以下是关于让老照片动起来的相关内容: 目前有多种方式可以实现让老照片动起来。比如在某些情况下,我们可以使用相关的工具,如在 MJ 中用各种关键词出图,或者使用 SD 做复杂的工作流来达到目的。 有人随便上传一张离谱村的图片,未加任何提示词,就能让图片有一些动态效果。父母将风景照片上传尝试,有的效果不错,水面动起来了,有的则画面扭曲。他们还提出将过世亲人的照片放入的想法,并由此探讨了肖像权、版权、信息安全以及该技术的意义。 对于视频工具,人们往往比绘画工具更感兴趣,还会询问能否在特定软件中一起使用等问题。图片生成视频的功能因为有现存人类自己生产的图片作为依据,与生活更贴近,有更多想象力用法,但也存在不完善的规定和可能造成的风险。有插件的情况下某些操作或许可行,否则直接去 dreamina 的官网可能更方便快捷。
2024-08-08
怎么做海报
以下是用 AI 做海报的方法: 1. 主题与文案:确定海报主题后,可借助 ChatGPT 等文本类 AI 工具协助完成文案。 2. 风格与布局:选择想要完成的风格意向,背景不一定是空白的,可根据文案和风格灵活调整画面布局。 3. 生成与筛选:使用无界 AI,输入关键词,生成并挑选一张满意的海报底图。 4. 配文与排版:将上述素材进行合理排版,得到成品。排版同样可以参考 AIGC 海报成果。 另外,关于用图像流做二十四节气海报的方法: 这个功能的核心是图像流,图像流要做出效果的核心是三思一年在 sd 上的积累和实验的提示词,详细见 WayToAGI 社区的教程:进 waytoAGI 知识库搜索。 对应在图像流里的核心节点是“图像参考”和“图像生成”(这两个的原理参考 SD 模型的 controlnet 和基础 sd 大模型,此处不赘诉技术细节,有兴趣的去 B 站翻对应的视频解说)。图像参考选择“空间深度”,模型选择“人像”,并参考输入的底图。 其次在图像流里要做到的是在图片上叠加 logo、文字,让海报不只是一张图,而是真正的“海报”。这里对应的分别是“叠图”和“添加文字”节点,排序不分先后,都可以。注意一下,这里需要调色,调整对应摆放的位置,让你的海报构图保持一定的美感。在三思 bot 里,logo 被安排在左上角,文字安排在右下角,形成对角线。完整的图像流如下: 还可以用代码或知识库来做,做法是匹配出对应节气的提示词和底图。由于提示词占了大部分,为节省版面,此处就贴核心代码。 最后还做了一些美化(非必要),比如: 等待的过程中给出加载动画。 用 LLM 写点寄语。 用卡片美化输出格式。(之后会出一期专门讲 coze 的输出美化思路的教程,敬请期待)
2024-08-08
常见的提示词写法误区举例
常见的提示词写法误区主要包括以下几点: 1. 忽略基础知识的重要性:很多同学急于上手写复杂的提示词,对基础教程重视不足。在能写较长提示词后,会问出如“为什么我问了两轮之后 GPT 就会失忆”“为什么给了特定一段话但它会混淆”“为什么大模型无法指定准确字数及有何办法让生成长度靠谱”等基础问题。建议多读翻译和解读良好的基础教程,并跟着示例做符合自身需求的小例子。 2. 试图用一个 Prompt 解决 10 个问题:很多同学因被精妙的提示词吸引而决心自己写出这样的 Prompt,但应注意避免。 3. 过于关注 Prompt 的文本本身:如果发现花在飞书代码块和 markdown 记事本上的时间远超与 GPT 对话的时间,要警惕是否忽略了在写作过程中与 GPT 进行深度对话来检验其对方法论的熟悉程度、获取完善建议、反复测试生成结果以优化和改善 Prompt。比如在实战案例中,学员撰写的焦虑情绪测试和生成建议的 Prompt 虽文法上没问题、生成结果除宽泛外无大问题,但未在对话场景中代入用户体验反复测试,可能导致真正的用户不会使用。 在写提示词时,还需注意以下语法方面: 根据想画的内容写提示词,多个提示词之间使用英文半角符号。一般而言,概念性、大范围、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词,大致顺序如:将权重提高 1.21 倍(= 1.1 1.1)。
2024-08-08
判别式与生成式
生成式模型和判别式模型在底层模式上存在普遍性和差异性。 生成式模型方面: 核心之一在于采用更高效的 token 化,language 或 code 作为 token 化的承载媒介,是人类认知推理、链接物理世界、抽象化表达的重要且广泛的概念化空间。 例如在 GAN 中,生成器不断生成逼真的假图像,与判别器互相博弈优化。 常见的生成式模型包括 GAN、Flowbased models(其在 AIGC 时代的作用未充分显现)、VAE(是 Stable Diffusion 模型的核心结构之一)等。 判别式模型方面: 在“判别侧”即模型输出“Y”侧对于生成式模型来说属于其子集,某种程度上不仅是“Y”,模型输入“X”侧及任务本身也属于生成式模型的子集。 通过学习台湾大学李宏毅教授的《生成式 AI 导论 2024》课程,可以更全面地了解生成式 AI 的基本概念、发展历程、技术架构、应用场景等内容,包括生成式模型的基本结构、训练方法、评估指标,生成式对话的概念、系统架构和关键技术,预训练语言模型的发展、优缺点及在生成式 AI 中的应用,以及生成式 AI 面临的挑战和未来发展趋势。
2024-08-08
具身智能
具身智能是人工智能领域的一个子领域。 它强调智能体(如机器人、虚拟代理等)通过与物理世界或虚拟环境的直接交互来发展和展现智能。智能不仅仅是处理信息的能力,还包括感知环境、自主导航、操作物体、学习和适应环境的能力。 具身智能的核心在于智能体的“身体”或“形态”,其可以是物理形态,如机器人的机械结构,也可以是虚拟形态,如模拟环境中的虚拟角色。这些身体为智能体提供了与环境互动的手段,并影响其学习和发展。例如,机器人通过机械臂与物体互动来学习抓取和操纵技能,虚拟代理在游戏环境中探索以学习解决问题的策略。 具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。在机器人学中,关注设计能自主行动和适应环境的机器人;在认知科学和神经科学中,探索大脑处理与身体相关信息的机制及应用于人造智能系统;在计算机视觉中,致力于开发使智能体能够理解和解释视觉信息,从而进行有效空间导航和物体识别的算法。 具身智能在机器人领域有重要应用,特别是在服务机器人、工业自动化和辅助技术等方面,能让机器人更好地理解和适应人类生活环境,提供更自然有效的人机交互。此外,在虚拟现实、增强现实和游戏设计等领域也有广泛应用,创造更具沉浸感和交互性的体验,丰富人们的数字生活。 尽管具身智能在理论和技术上取得显著进展,但仍面临许多挑战,如如何设计智能体的身体以最大化其智能表现,如何让智能体在复杂多变环境中有效学习,以及如何处理智能体与人类社会的伦理和安全问题等。未来的研究将继续探索这些问题,以推动具身智能的发展和应用。 在追求人工通用智能(AGI)的征途中,具身 Agent 正成为核心的研究范式,它强调将智能系统与物理世界紧密结合。具身 Agent 的设计灵感源自人类智能的发展,认为智能更多来自于与周遭环境的持续互动和反馈。与传统的深度学习模型相比,LLMbased Agent 不再局限于处理纯文本信息或调用特定工具执行任务,而是能够主动感知和理解所在的物理环境并与其互动,利用内部丰富的知识库进行决策并产生具体行动,改变环境,这一系列行为被称为“具身行动”。具身行动在解决传统强化学习算法的局限性、提升转移能力和训练数据利用效率等方面展现出潜力。
2024-08-08
机器学习的发展里程碑
机器学习是人工智能的一个分支,其发展有着清晰的脉络,从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点。机器学习在近 30 多年已发展为多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 在机器学习的发展历程中,CNN(卷积神经网络)的结构基于两类细胞的级联模型,在计算上更有效、快速,已用于自然语言处理和图像识别等领域,并击败大多数其他算法。随着对大脑工作机制认知的增加,神经网络的算法和模型不断进步。 Deep Learning 是一个革命性领域,但需要数据支持。李飞飞创建的 ImageNet 是重要数据集之一,自 2009 年创建以来,为 Machine Learning 算法的发展发挥了重要作用。仅七年时间,ImageNet 让获胜算法对图像中物体分类的准确率从 72%提高到 98%,超过人类平均能力,并引领了 DL 革命,为其他数据集开创了先例,此后有更多新的数据集被引入。
2024-08-08
aigc作品集排版
以下是为您提供的 AIGC 作品集排版相关内容: AIGC Weekly 15 :包含学习资源,如过去一年最重要的语言模型论文汇总,涵盖多种模型、架构变化、预训练后技术和训练技术等,所有论文链接到实际 PDF 文件,排列顺序大体按重要性和独特性排列。 AIGC 服装比赛 大众赛道 :提供了主题参考,包括破碎玻璃、热带雨林、极光奇景、抽象艺术、印象派画作、野生动物、水下世界等主题,每个主题都有英文主题名、特点、灵感来源等详细信息。 AI 切磋大会✨第二期 5 月 26 日 :展示了第二期展映作品提交情况,如目前的共创作品上影《种子》,以及相关人员的经验和作品编号、过程分享的链接等。
2024-08-08
我做了一批数字化看板,想让AI来评分,哪个AI工具比较合适
以下是一些可能适用于为您的数字化看板评分的 AI 工具: 1. PlantUML:这是一个文本到 UML 的转换工具,能通过编写描述性文本自动生成序列图、用例图、类图等,有助于创建逻辑视图。 2. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 3. Archi:免费的开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图的创建。 4. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包含逻辑视图和部署视图。 需要注意的是,虽然这些工具可以辅助创建架构视图,但它们不都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,您应该考虑您的具体需求,比如是否需要支持特定的建模语言、是否需要与特定的开发工具集成、是否偏好在线工具或桌面应用程序等。
2024-08-08
我想用AI做普法视频
将小说转换为 AI 视频通常包括文本分析、角色与场景生成、视频编辑与合成等多个步骤。以下是一些可用的工具及一般流程: 1. 工具方面,如 PixVerse,其文生视频功能是 AI 生成视频中最直接的方式。通过输入提示词让其生成视频,但需要对提示词有深入了解,能准确描述画面内容。提示词的基本规则可参考:。为方便创作,它还提供了灵感分镜、风格选择等功能。 2. 有人曾尝试使用 Pika、Pixverse、Runway、SVD 四大 AI 视频工具制作 AI 短片,如制作科幻片、战争片、奇幻片等,包括太空舰队交战、宇航员头盔特写、士兵在战壕准备迎击等场景。 如果您想用 AI 做普法视频,可以参考上述流程和工具,结合普法内容的特点,准确描述相关画面和情节,生成所需的视频素材。
2024-08-08
能够同时读取多个文档的BOT的工作流的节点该如何搭建
以下是搭建能够同时读取多个文档的 BOT 工作流节点的相关内容: 首先,我们的 Bot 获得了「掘金 x 扣子 Hackathon 活动 深圳站」的总冠军。 对于一种工作流,其步骤如下: 1. 开始节点:接收用户选择的小说人物角色名称。 2. 知识库节点:将输入的小说角色名称作为 query 去知识库检索该角色的性格特点和经典台词。 3. 大模型节点:让大模型对信息进行筛选,并采用 json 格式输出。 4. 代码节点:对上游的输入数据进行规整,格式化输出。 5. text2image:引用上一步输出的 feature(用于描述人物性格和特点),作为 prompt,生成人物的角色照。 6. 结束节点:输出人物台词和角色照。工作流图参考:第 3 个工作流是 ask_character,当用户向小说角色提问时,Bot 会调用此工作流获取结果,本质上是一个根据用户 query 进行 RAG(Retrieval Augmented Generation,检索增强生成)的任务,这是非常重要的一个工作流,关系到用户和小说人物角色对话时 Bot 的回答质量。 工作流拆解步骤: 1. 开始节点:接收用户向小说人物角色提问的问题。 2. 知识库节点:将问题作为 query 去小说内容中进行语义检索和全文检索。 3. 大模型节点:让大模型根据问题和检索到的上下文信息,生成答案。 4. 结束节点:输出答案,作为小说人物的回答。工作流图参考: 另外,在每个工作流里面,都嵌入了一个知识库节点,维护了如下 3 个知识库: 1. 小说合集:包含了 4 本小说。 2. 小说台词:包含了小说主要人物角色和经典台词。 3. 小说简介:包含小说简介和主要的人物角色。 以“首席组织官 组织管理专家”bot 为例,在 bot 里面创建数据库的教程: 1. 创建一个 bot,并在 bot 编排页面新增数据库;如果是新建一个 bot 操作也是一样的。 2. 选择自定义数据表。 3. 点击自定义数据表以后,按照需要设置数据表信息。 4. 若工作流需要,可以创建两个数据表。
2024-08-08