Navigate to WaytoAGI Wiki →
Home/All Questions
sd 换脸
以下是关于 SD 换脸插件 Roop 的详细步骤: 1. 勾选包含 Python 和 C++包等相关项目,更改安装位置后点击右下角安装。安装时间较长,需耐心等待。 2. 安装好后,打开 SD 文件目录下的相关文件夹,在地址栏输入“cmd”并回车,在打开的 dos 界面粘贴“python m pip install insightface==0.7.3 user”代码,自动安装 insightface。若此阶段出错,建议下载最新的秋叶 4.2 整合包(6 月 23 号更新),在云盘后台回复【SD】可下载。 3. 安装完成后,重新打开启动器,后台会继续下载一些模型,全程要保证科学上网。 4. 选用真实系模型“realisticVisionV20”,关键词描述相关内容生成照片。 5. 启用 ROOP 插件,选择要替换的人物照片,面部修复选择“GFPGAN”,根据需求设置右边的参数数值和放大算法,点击生成。 6. 若生成的人脸像素偏低、模糊,可将图发送到“图生图”,开较小的重绘幅度,然后使用 controlnet 中的 tile 模型进行重绘。 此插件主要适用于真实人脸替换,对二次元人物作用不大。在使用时要谨慎,切勿触犯法律。若想要此插件,可添加公众号【白马与少年】,回复【SD】即可。推荐使用最新的秋叶整合包,出错概率最小,且科学上网很重要。
2025-03-19
额,我想问下关于数字人相关的解决方案
以下是关于数字人的相关解决方案: 摊位信息方面:包括 AI 肖像及写真、AIphone 创意手机壳、AI 照片转动漫、AI 如意写真、AI 数字人短视频和直播、爱原物 AI 设计、AI 摄影写真、量化 AI 助手应用、AI 玄学+珠宝、阿里无影 AI 云电脑和建筑设计、现场算 AI 塔罗牌等。 算法驱动的数字人:开源代码仓库有 ASR 语音识别(如 openai 的 whisper、wenet、speech_recognition)、AI Agent(大模型有 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可用 LangChain 模块自定义)、TTS(如微软的 edgetts、VITS、sovitssvc)。人物建模模型可通过手动建模或 AIGC 方式生成人物动态效果。但简单构建方式存在如生成指定人物声音、TTS 音频精确驱动数字人口型及动作、数字人使用知识库做出专业回答等问题。 剪映数字人“个性化”方案:剪映作为字节跳动旗下产品,在抖音平台广泛应用,海外版 CapCut 成绩优异。其具有声音克隆和公模数字人能力,搭配 facefusion 换脸技术可实现零成本口播数字人。制作流程为打开剪映,添加文本到文字轨道并修改,点击朗读进行声音克隆,选择数字人形象并换上克隆音色,最后一键智能生成字幕并调整文字样式校准。剪映下载地址: 。
2025-03-19
我想了解MCP相关信息
模型上下文协议(MCP)是一种全新的开放协议,用于标准化地为大语言模型(LLMs)提供应用场景和数据背景。 MCP 的特点和优势包括: 简化开发:一次整合,多次复用,不再重复开发。 灵活性强:轻松切换 AI 模型或工具,无需复杂的重新配置。 实时互动:长连接保证数据实时更新。 安全可靠:内置标准化安全和权限控制。 扩展性强:AI 系统扩展时,只需连接新的 MCP 服务器。 与传统 API 的区别在于: 传统 API 通常需要单独整合多个不同的 API,每个 API 都有独立的代码、文档、认证方式、错误处理和后续维护,极大地增加了开发复杂度。 传统 API 就像不同的门,每扇门都需要自己的钥匙和特定的规则。 MCP 由 Anthropic 公司最早开发,现已成为一个开放协议,越来越多的企业和开发者开始采用。 在某些情况下,传统 API 更适合,如应用场景需要精准且严格受控的交互方式,包括需要细粒度控制、功能严格限制,更偏好紧耦合以提升性能,希望最大化交互的可预测性。 开始使用 MCP 的步骤包括: 1. 定义能力:明确 MCP 服务器提供的功能。 2. 实现 MCP 层:按照协议标准进行开发。 3. 选择通信方式:本地连接(标准输入输出)或远程连接(如 WebSockets)。 4. 创建资源/工具:开发或连接数据源和服务。 5. 建立客户端连接:与 MCP 服务器建立安全稳定的连接。 例如,Claude 可以通过简单的 MCP 集成直接连接到 GitHub、创建新存储库并创建 PR。
2025-03-19
免费文字生成视频
以下是一些免费文字生成视频的工具和相关信息: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,支持视频编辑,目前内测免费。生成服务托管在 discord 中,加入 Pika Labs 的 Discord 频道,在“generate”子区输入指令或上传本地图片即可生成视频。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频,由 Stability AI 开源。 3. 剪映海外版 CapCut 推出了文字生成视频功能,每人每天可以免费生成五次:https://www.capcut.com/editortools/aivideogenerator 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 此外,还有一些相关动态: 1. Arc Search 浏览器有双指捏合自动总结页面内容的新功能。 2. 现在可以给 GPTs 打分,同时在关于页面展示评分、类别、对话数量、会话开场白等信息。 3. Stability AI 官方的 SVD 视频生成平台公测了:https://www.stablevideo.com/login?returnUrl=%2F 4. 字节发布了一个用类似 SDXL Turbo 的模型 SDXLLightning,只需几步即可生成高质量的 1024px 图像:https://huggingface.co/ByteDance/SDXLLightning 5. Gemini Advanced 现在可以有似代码解释器的东西来运行 Python 代码。 6. ?正在与 Midjourney 就潜在的合作伙伴关系进行谈判。 7. AnimateLCMSVDxt 利用了 LCM 技术蒸馏的 SVD 模型,只需要四步就能生成不错的视频:https://huggingface.co/wangfuyun/AnimateLCMSVDxt 8. 谷歌确认与 Reddit 合作,谷歌可以访问 Reddit 的数据 API(用于人工智能和搜索),Reddit 将使用谷歌的人工智能来改进其搜索功能。
2025-03-19
语音转文字
以下是关于语音转文字的相关信息: 推荐工具: OpenAI 的 wishper 相关链接: https://huggingface.co/openai/whisperlargev2 https://huggingface.co/spaces/sanchitgandhi/whisperjax (此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API) 语音转文本(Speech to text) 介绍: 语音转文本 API 提供转录和翻译两个端点,基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。 文件上传限制为 25MB,支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。 快速入门: 转录:输入音频文件及所需输出格式的音频文字稿,默认响应类型为包含原始文本的 JSON,可添加更多带有相关选项的form 行设置其他参数。 翻译:输入音频文件,输出为被翻译成英文的文本,目前仅支持英语翻译。 更长输入: 默认 Whisper API 仅支持小于 25MB 的文件,更长的音频文件需分成小于 25MB 的块或使用压缩后格式,可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。 提示: 可使用提示提高转录质量,模型会尝试匹配提示风格,但提示系统受限,仅提供有限控制。 示例:改善特定单词或缩略语的识别;利用先前片段的转录保留分段文件的上下文;避免标点符号被跳过;保留填充词汇;处理不同书写风格。
2025-03-19
我需要deepseek论文写作指令
以下是关于 DeepSeek 论文写作指令的相关内容: 一、DeepSeekR1 提示词系统完全指南 1. 高级调试策略 模糊指令优化 问题类型:宽泛需求 修正方案:添加维度约束 示例对比:原句“写小说”→修正“创作以 AI 觉醒为背景的悬疑短篇,采用多视角叙事结构” 问题类型:主观表述 修正方案:量化标准 示例对比:原句“写得专业些”→修正“符合 IEEE 论文格式,包含 5 项以上行业数据引用” 迭代优化法 首轮生成:获取基础内容 特征强化:请加强第三段的技术细节描述 风格调整:改用学术会议报告语气,添加结论部分 最终校验:检查时间逻辑一致性,列出可能的事实性错误 2. 行业应用案例 技术开发场景 商业分析场景 3. 异常处理方案 信息幻觉:追加请标注所有不确定陈述,并提供验证方法 格式偏离:使用严格遵循以下模板:第一行...第二行... 深度不足:触发请继续扩展第三章节内容,添加案例佐证 4. 效能监测指标 首次响应准确率:目标>75% 多轮对话效率:问题解决平均轮次<3 复杂任务分解:支持 5 级子任务嵌套 二、高阶能力调用 1. 文风转换矩阵 指令结构:作家风格移植 效果示例:“用鲁迅杂文风格写职场 PUA 现象” 指令结构:文体杂交 效果示例:“将产品说明书改写成《史记》列传格式” 指令结构:学术口语化 效果示例:“把这篇论文摘要翻译成菜市场大妈能听懂的话” 2. 领域穿透技术 行业黑话破解:“解释 Web3 领域的‘胖协议瘦应用’理论” 商业决策支持 三、场景化实战策略 1. 创意内容生成 2. 技术方案论证 四、效能增强技巧 1. 对话记忆管理 上下文锚定:“记住当前讨论的芯片型号是麒麟 9010” 信息回溯:“请复述之前确认的三个设计原则” 焦点重置:“回到最初讨论的供应链问题” 2. 输出质量控制 问题类型:过度抽象 修正指令:“请具体说明第三步操作中的温度控制参数” 问题类型:信息过载 修正指令:“用电梯演讲格式重新组织结论” 问题类型:风格偏移 修正指令:“回归商务报告语气,删除比喻修辞” 五、特殊场景解决方案 1. 长文本创作 分段接力法:“先完成故事大纲→逐章扩展→最后进行伏笔校验”“确保新章节与前文的三处细节呼应” 2. 敏感内容处理 概念脱敏法:“用经济学原理类比说明网络审查机制” 场景移植法:“假设在火星殖民地讨论该议题” 希望以上内容对您有所帮助,您可以根据实际需求灵活运用这些指令。
2025-03-19
AI Agent和Agentic Workflow的区别
AI Agent 和 Agentic Workflow 存在以下区别: AI Agent: 基本框架:由“LLM + 规划 + 记忆 + 工具使用”构成,大模型 LLM 充当“大脑”。 规划方面:包括子目标分解、反思与改进,将大型任务分解为较小可管理的子目标,能对过去行动进行自我批评和反思,从错误中学习并改进未来步骤。 记忆方面:用于存储和调用相关信息。 Agentic Workflow: 驱动角色工作流变革:使用多智能体协作的方法,让不同角色的 Agent 按照任务要求自主规划选择工具、流程进行协作完成任务。 涉及人机协同关系:生成式 AI 的人机协同分为嵌入式、副驾驶、智能代理 3 种产品设计模式,在不同模式下,人与 AI 的协作流程有所差异。 重塑获取信息的方式:如搜索引擎和基于大模型的聊天机器人在获取信息上目标一致,ChatGPT 的出现被认为将对传统搜索引擎带来颠覆。 包含多种设计模式:如反思、工具使用、规划、多智能体协同等。反思是让 Agent 审视和修正自己生成的输出;工具使用指 LLM 生成代码、调用 API 等工具进行操作;规划是让 Agent 分解复杂任务并按计划执行;多智能体协同是多个 Agent 扮演不同角色合作完成任务。
2025-03-19
AI制作视频
将小说用 AI 制作成视频通常包含以下步骤和可利用的工具: 制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 工具与网址: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可以基于文本描述生成图像。网址: 2. Midjourney(MJ):另一个 AI 图像生成工具,适用于创建小说中的场景和角色图像。网址: 3. Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。网址: 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址: 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址: 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址: 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址: 8. 故事 AI 绘图:小说转视频的 AI 工具。网址: 此外,在 AI 春晚的制作中,涉及到制片人、图像创意、视频制作、编剧、配音和配乐、剪辑师等多个分工,团队成员通过明确的分工和高效的协作,充分利用 AI 技术完成了从配乐、配音、脚本撰写到图像和视频制作的几乎全部工作。团队高效协作的方法在于分工明确,形成高效的 SOP。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-03-19
读pdf并根据要求从中提取特定内容的比较好的AI工具有哪些
以下是一些能够读 PDF 并根据要求从中提取特定内容的 AI 工具: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 此外,还有一些与 PDF 处理相关的 AI 工具,如: 1. :它可以提取 PDF 文件中的内容,并将内容交给 ChatGPT 进行分析。待解析完成之后,你便可以跟它进行一对一对话交流,就好像它是一个完全理解内容的人一样。 2. 可以使用 PyMuPDF 组件,通过 Python 脚本从 PDF 中获取图片。
2025-03-19
如何免费试用 ChatGPT 4.5
目前关于免费试用 ChatGPT 4.5 的信息如下: 数周或数月内将推出代号“Orion”的 GPT4.5,这是最后一款“非链式思维“模型。后期将融合 o 系与 GPT 系列,推出整合多项新功能的 GPT5,同时结合画布,搜索,深度研究等能力。ChatGPT 的免费用户也将可以使用到 GPT 5。订阅用户会享有更高智能的 GPT5,越高订阅等级,智能越强。 如有任何问题请联系后台,电子邮箱:alolg@163.com
2025-03-19