Navigate to WaytoAGI Wiki →
Home/All Questions
DALL-E
DALL·E 是 OpenAI 构建的一种新型神经网络,可以从文字说明直接生成图像。它一般会有三个 Prompt 阶段:原始 Prompt 即初始输入的那个;优化 Prompt 时有时无,DallE 会输出它分析优化后的每图英文 Prompt;最终 Prompt 则是每张图片点开后的 Prompt。推特博主通过一段 json 实现了一个功能,切换是否允许 DALL·E 自动更改原始 Prompt,一个是要求它必须生成新的,另一个是不允许更改,这个切换对应到了一个命令上,可以方便调用切换。 一些具有代表性的海外项目中包含 DALL·E 3,去年 OpenAI 将 DALL·E 3 集成进 ChatGPT。DALL·E 推出了编辑功能,支持对生成图片进行二次编辑,包括替换、删除、添加对象。其编辑界面提供了一系列可用工具,如 Select 按钮用于选择需要编辑的图像部分,左上角有可来回拖动大小的工具以改变想要更新的区域,还有“撤销、恢复”按钮以及“Clear Selection”选项用于重新开始编辑图像。使用时,编辑器界面可以添加、删除和更新图像的某些部分,例如添加樱花、删除鸟类、更改猫的表情等。帮助文档可参考:https://help.openai.com/en/articles/9055440editingyourimageswithdalle
2025-03-21
0AI实习经验,该如何破局进入AI相关行业。bg:小语种专业,有电商+互联网实习经历
对于没有 AI 实习经验但想进入 AI 相关行业的小语种专业背景且有电商和互联网实习经历的您来说,可以从以下几个方面破局: 1. 学习基础知识:通过在线课程、书籍等途径,系统学习 AI 的基础知识,包括机器学习、深度学习、自然语言处理等。 2. 参加培训项目:报名参加专业的 AI 培训项目,获取实践经验和项目成果。 3. 构建个人项目:利用所学知识,在开源数据集上构建自己的 AI 项目,展示实践能力。 4. 拓展人脉:参加 AI 相关的行业活动、论坛、社群,结识业内人士,争取内推机会。 5. 优化简历:在简历中突出您在电商和互联网实习中所培养的相关技能,如数据分析、问题解决等,并强调您对 AI 的学习热情和潜力。 6. 申请实习岗位:即使是一些小型公司或初创企业的 AI 实习岗位,也积极申请,积累经验。 7. 考取相关证书:获取一些被行业认可的 AI 相关证书,增加竞争力。
2025-03-21
mcp
模型上下文协议(MCP)是一种全新的开放协议,用于标准化地为大语言模型(LLMs)提供应用场景和数据背景。它就像AI领域的“USBC接口”,能让不同的AI模型与外部工具和数据源轻松连接。 MCP的好处包括: 简化开发:一次整合,多次复用,不再重复开发。 灵活性强:轻松切换AI模型或工具,无需复杂的重新配置。 实时互动:长连接保证数据实时更新。 安全可靠:内置标准化安全和权限控制。 扩展性强:AI系统扩展时,只需连接新的MCP服务器。 与传统API相比,通常AI系统连接外部工具时,需要单独整合多个不同的API,每个API都有独立的代码、文档、认证方式、错误处理和后续维护,极大地增加了开发复杂度。传统API就像不同的门,每扇门都需要自己的钥匙和特定的规则,而MCP让AI模型更简单地获取数据、工具与服务。 在某些情况下,传统API更适合,比如应用场景需要精准且严格受控的交互方式,包括需要细粒度控制、功能严格限制,更偏好紧耦合以提升性能,希望最大化交互的可预测性。 Anthropic 公司最早开发了 MCP,现在它已成为一个开放协议,越来越多的企业和开发者开始采用。 要开始使用 MCP,可按照以下步骤: 1. 定义能力:明确MCP服务器提供的功能。 2. 实现MCP层:按照协议标准进行开发。 3. 选择通信方式:本地连接(标准输入输出)或远程连接(如WebSockets)。 4. 创建资源/工具:开发或连接数据源和服务。 5. 建立客户端连接:与MCP服务器建立安全稳定的连接。 Claude 可以通过简单的MCP集成直接连接到GitHub、创建新存储库并创建PR。
2025-03-21
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎能力,增强用户搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图、三元组等。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-03-21
midjourney图怎么 放大
在 Midjourney 中,放大图像的方法如下: 放大(Upscale)将图像尺寸加倍: 精细放大(Subtle):放大图像同时尽量保持原样。 创意放大(Creative):在放大的同时会调整或改变图像中的某些细节。 操作时,您可以点击相应的按钮进行放大。例如,在生成的图像中,点击上面的 U 1 4 即可放大一张图。 另外,使用当前默认模型版本的中途图像的默认尺寸为 1024 x 1024 像素。您可以使用 upscale 工具将文件大小增加到 2048 x 2048 或 4096 x 4096 像素。在网络浏览器中打开 Midjourney 图像,或从 Midjourney.com 下载它们以获得最大文件大小。 需要注意的是,如果没看到放大相关的按钮,可能有以下原因: 1. 该图像已经在 Discord 中生成最满意的一张,不可再放大。 2. 在 More options 文字里没打上相应的对勾。
2025-03-21
奖励函数
奖励函数是用于确定应用动作后每个新生成状态质量的函数,通常表示为 r_t = r 。与强化学习中奖励工程的复杂性相似,制定奖励可能较为复杂,需要适应特定任务的领域知识或偏好。在某些框架中,为保持通用性,直接将奖励定义为在与给定训练样本分开的预留集上的任务性能,但奖励的确切定义取决于任务特定的指标。 例如在自我反思框架中,评估者会根据不同人物使用不同的奖励函数(决策任务使用 LLM 和基于规则的启发式奖励)。而在 PromptAgent 方法中,奖励函数由基本模型在留出集上的表现决定,当路径长度达到深度限制时达到终止状态,还应用了早停方法,具体的最小阈值和最大阈值有相应的计算方式。
2025-03-21
ai读书视频
如果您想用 AI 把小说做成视频,以下是一般的制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 另外,为您介绍一些相关的 AI 产品和网站: 用户上传视频、文本、文档后可以生成一个多语音播客的 ElevenLabs Reader iOS 应用,目前支持 32 种语言。其网址为:https://elevenlabs.io/genfm Google NotebookLM:https://notebooklm.google.com Google Illuminate,AI 读书产品:https://illuminate.google.com Meta NotebookLlama,开源版本效果一般:https://github.com/metallama/llamarecipes/tree/main/recipes/quickstart/NotebookLlama PodLM:https://podlm.ai 302 AI 播客生成器,大大大杂糅,各种常见的 AI 生成功能都有了,而且开源了:https://302.ai/tools/podcast 可听,小程序里体验会让震撼加倍,AI 播客的个性化创作距离我们如此之近:http://keting.tech MemenomeLM,Micrecraft 游戏视频生成+NotebookLM+语音克隆,思路和 DAU 都非常狂野:https://www.memenome.gg 还有关于制作 AI 短片的信息: 如果您想制作 AI 短片,比如前 Sora 时代的短片,可参考以下流程,共五步: 1. 写剧本/分镜 2. 生图 3. 生视频 4. AI 声音 5. 剪辑 以上是关于 AI 读书视频相关的内容,希望对您有所帮助。
2025-03-21
对manus启发最大的论文
以下是对 Manus 启发较大的两篇论文: 1. 《MCP 协议详解:复刻 Manus 全靠它,为什么说 MCP 是 Agent 进化的一大步?》(https://waytoagi.feishu.cn/wiki/RwIBwXlkUiSHKzk3p9UciZ8vnOf?useEs6=0&from=wiki):该论文聚焦于智能体技术的最新风口,深入剖析了 MCP 协议如何重构 AI 与工具、数据交互的方式,使 AI 真正“动起来”。通过一次搭建、无限扩展的设计理念,极大简化了 AI 助手与外部系统的对接流程,为 AI 生态搭建出高效、安全、灵活的通用接口。 2. 《屏蔽噪音,Manus 给我的 3 个启发》(https://mp.weixin.qq.com/s/s_ccBArUBKepgRNkewhx7Q):本文探讨了 AI 产品 Manus 给产品经理的三大启发,包括展示过程、允许干预,确保用户理解 AI 的操作与结果;信任机器,减少人为干预,让 AI 自行探索与生成任务;关注用户体验,特别是付费用户对效果的期待。
2025-03-21
机器学习入门
以下是关于机器学习入门的相关知识: 实现人工智能的方法: 自上而下的方法:尝试对推理过程进行建模,将其形式化并转化为计算机程序,即符号推理。例如医生诊断时应用大量规则得出结果,但从人类专家提取知识较困难,且有些任务无法简化为知识操作。 自下而上的方法:模拟大脑中的神经元,在计算机中构建人工神经网络,通过举例让其学习解决问题,类似于新生儿的学习过程。 机器学习: 是人工智能的一部分,基于数据使计算机学会解决问题。 经典机器学习在《机器学习入门课程》中有详细介绍。 学习资源:《》。 算法学习中的数学基础: 统计学:机器学习是统计的另一种形式,可利用统计学预估数据规律。统计学中关注的数据汇总技术包括平均值、中位数、众数等。平均值在机器学习中的特征归一化、计算 R² 值等方面有应用;中位数在将数据样本划分为等间隔或四分位数范围时有用;众数可用于查找数据集中占主导地位的元素或类别。
2025-03-21
什么是Diffusion Model
在 AI 图像生成中,“Diffusion Model”(扩散模型)是一类生成模型。其工作原理包括以下几个方面: 1. 正向扩散过程:向图像逐渐添加高斯噪声,直至图像完全无法识别,此过程可形式化为顺序扩散马尔可夫链。 2. 潜空间表示:将图像压缩到低维的潜在空间中,以减少计算量并提高生成速度。 3. 学习逆向过程:训练神经网络来预测每一步中噪声的分布,并逐步去除噪声以恢复清晰图像。 4. 文本到图像的生成:结合文本编码器和图像解码器,依据文本描述生成相应图像。 扩散模型的关键优势在于能够生成高质量的图像,且相比其他生成模型(如 GANs)在计算效率和稳定性方面更具优势。例如 Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具,可根据文本提示生成逼真的图像。 扩散模型的逆向过程,即从噪声中恢复图像的过程,可类比为雕刻,AI 逐步去除不必要的部分,最终得到清晰的图像。这个过程可以逐步进行,也可以一次性完成,取决于模型的具体实现和采样算法。 总的来说,扩散模型为 AI 图像生成提供了强大的技术手段,能在多种场景下生成高质量的图像。例如 Midjourney 就是一个由 Latent Diffusion Model(LDM)驱动的 AI 图像生成工具,它通过文本提示和参数输入,利用基于大量图像数据训练的机器学习算法生成独特的图像。
2025-03-21