Navigate to WaytoAGI Wiki →
Home/All Questions
图生文怎么制作
以下是关于图生文制作的详细步骤: 一、Tusiart 简易上手教程 1. 定主题:明确您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题,选择内容贴近的 checkpoint,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:基于生成内容,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看帖子中使用的 lora。 4. ControlNet:用于控制图片中的特定图像,如人物姿态、特定文字、艺术化二维码等,属于高阶技能,可后续学习。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,无需管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,无需语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可留意 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 后,采样次数在 30 40 之间,过多意义不大且慢,过少出图效果差。 11. 尺寸:根据个人喜好和需求选择。 二、Liblibai 简易上手教程 1. 定主题:确定要生成的图片的主题、风格和表达信息。 2. 选择 Checkpoint:依照主题找贴近的 checkpoint,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找与生成内容重叠的 lora 来控制图片效果和质量,参考广场上的优秀帖子。 4. 设置 VAE:无脑选 840000 那一串。 5. CLIP 跳过层:设成 2 。 6. Prompt 提示词:用英文写想要 AI 生成的内容,单词和短语组合,用英文半角逗号隔开,不管语法和长句。 7. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开,不管语法。 8. 采样方法:一般选 DPM++2M Karras 较多,留意 checkpoint 详情页上模型作者推荐的采样器。 9. 迭代步数:选 DPM++2M Karras 后,在 30 40 之间,过多意义不大且慢,过少出图效果差。 10. 尺寸:根据个人喜好和需求选择。 11. 生成批次:默认 1 批。 三、SD 新手入门图文教程 1. CFG Scale(提示词相关性):决定图像与提示的匹配程度,增加该值会使图像更接近提示,但可能降低图像质量,可用更多采样步骤抵消,一般开到 7 11 ,过高会有粗犷线条和过锐化图像。 2. 生成批次:每次生成图像的组数,一次运行生成图像的数量为“批次×批次数量”。 3. 每批数量:同时生成的图像个数,增加会提高性能但需更多显存,若显存未超 12G ,保持为 1 。 4. 尺寸:指定图像长宽,出图尺寸太宽可能出现多个主体,1024 以上尺寸可能效果不理想,推荐小尺寸分辨率+高清修复(Hires fix) 。 5. 种子:决定模型生成图片时的随机性,初始化 Diffusion 算法起点的初始值,相同参数下应生成相同图片。 6. 高清修复:通过勾选“Highres.fix”启用,默认高分辨率下会生成混沌图像,使用后先按指定尺寸生成再放大,实现高清大图效果,最终尺寸为(原分辨率×缩放系数 Upscale by) 。
2025-03-11
cursor是什么,如何使用
Cursor 是一个集成了多个模型(如 claude3.5sonnet、GPT4 等)的编辑器,具有以下特点和功能: 1. 附带一组第三方文档,已爬取、索引并准备好用作上下文,可通过@Docs 符号访问。若要对尚未提供的自定义文档进行爬网和索引,可通过@Docs>Add new doc 实现,粘贴所需文档的 URL 后,Cursor 将索引并学习文档,您将能够像使用其他文档一样将其用作上下文。在 Cursor Settings>Features>Docs 下,可管理已添加的文档,包括编辑、删除或添加新文档。 2. 继承了 vscode 的强大功能和用户界面,几乎一模一样,还深度集成了 gpt 等大模型,无缝融入了包括 IntelliJ IDEA、Visual Studio Code 和 GitHub 在内的主流开发环境和代码库中。 3. 体量小,启动快,编程效率高。 4. 支持多种语言(如 python、java、C 等),可用于聊天、辅助写代码、辅助写作等功能,能更好地为开发者服务。 目前,Cursor 公司的客户群已拓展到像 OpenAI、Midjourney、Perplexity 等知名大企业。同时,它提供了 3 种订阅模式。
2025-03-11
我想制作AI数字人,如何去寻找相关资料和教程
以下是寻找制作 AI 数字人相关资料和教程的途径: 1. 在线文档和公众号:可以查看。 2. B 站:在 B 站搜索相关视频教程。 3. 具体操作方法: 在剪映中,右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频。剪映会根据提供的内容生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 为让视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”按钮选择本地图片上传,将图片添加到视频轨道上,可通过拖拽轨道右侧竖线使其与视频对齐。 此外,还有一些开源的算法代码仓库可供参考: 1. ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块去做自定义,包含了 Agent 实现的几个组件 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌方面。 除了算法,人物建模模型可以通过手动建模实现,但这种简单的构建方式还存在一些问题,如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应动作、数字人如何使用知识库做出某个领域的专业性回答等。
2025-03-11
ai导航网站市场策略
以下是关于 AI 导航网站市场策略的相关信息: 市场数据: 近一年赛道单月访问量增加了 3,284 万,年增长率为 171%。 GetResponse Email Generator 的访问量减少了 97 万,而 Beacons AI 2.0 的访问量增长了 2,111 万,占整个赛道变化的 64%。 23 年 4 月访问量头部产品月访问量下降幅度明显,如 Writer 月访问量减少了 366 万,降低了 67%;GetResponse Email 月访问量减少了 97 万,降低了 17%;unbounce 月访问量减少了 36 万,降低了 36%。 导航网站市场特点: 天花板潜力:小众市场 对标公司:producthunt、hao123 总体趋势:增长乏力,月平均增速为 24 万 PV/月 原生产品占比:较高 竞争情况: Top1 占比:24% Top3 占比:62% 马太效应:弱 网络效应:中 大厂是否入局:否 大厂占比:低 技术门槛:低 Top1 公司(非大厂):TAAFT,估值未披露,3 月 PV 为 537 万。 对于中小企业利用人工智能(AI)进行转型提升市场营销效果方面,目标市场分析是关键。首先使用 AI 工具进行市场细分,选择能处理复杂数据集并提供深入洞察的工具,收集广泛市场数据并分析,将市场细分为不同客户群体。其次基于分析结果定制营销策略,执行并根据反馈和销售数据调整,持续监测效果、更新数据并优化策略。通过目标市场分析,中小企业能更精准识别和理解潜在客户,提高营销活动的 ROI,增强企业与客户联系,提升品牌形象和市场份额。 此外,还有一个关于“AI+交易”的摊位信息,其活动主题为“AI+交易:来定制专属于你的私人高级交易顾问吧!”,期望借助 AI 分析行情,提高资金使用效率。摊位区域为 D,摊位编号为 22,摊位类型为量化交易。
2025-03-11
用trae写小程序的使用教程
以下是使用 Trae 写小程序的完整教程: 1. 基础操作 右下角选中“DeepSeekR1”,这是关键的基础步骤。 让 AI 设计小游戏,记得说“用 HTML 来实现”,这样无需额外配置环境,生成的网页小游戏可随时随地打开使用。 AI 完成小游戏后,点击代码框右上角的应用。在存放网页的文件夹中找到并打开即可使用。 2. 功能优化 若想给小游戏增加倒计时系统,告诉 AI 让其修改。若第一次修改有误,把错误告诉它并可尝试切换到 deepseekV3 等其他模型。 对于生成效果不太对的情况,如图片重叠,把结果贴给 AI 并描述错误现象和期望表现,让其迭代修改。 3. 后续步骤 完成功能修改后,可进行保存功能的开发。 调整细节,对于一些复杂问题,可能需要多次与 AI 沟通修改。 另外,公众号回复“字幕图片”,可获取源代码。将其保存成.html 文件,在浏览器打开就能使用。您还可以参考 https://openprocessing.org/ 中的创意,复制代码到 Trae 中用 AI 对话优化。
2025-03-11
智能体客服
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 智能体具有以下特点: 1. 自主系统:通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到目标。 2. 任务分解:将大型任务分解为更小、可管理的子目标,有效处理复杂任务。 3. 反思完善:对过去行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 4. 记忆能力:包括短期记忆(利用模型的短期记忆来学习)和长期记忆(通过外部向量存储和快速检索实现长时间保留和回忆无限信息)。 5. 工具使用:学习调用外部 API 获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 以下是一些智能体相关的目录: 1. 2. 3. 4. 5. 6. 随着 ChatGPT 与 AI 概念的爆火,出现了很多新名词,如“智能体 Agent”、bot 和 GPTs 等。简单理解,智能体就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。在做 Agent 创业的公司有很多,比如 C 端案例中,社交方向有用户注册后先捏一个自己的 Agent,然后让其与他人的 Agent 聊天,两个 Agent 聊到一起后再真人介入的有趣场景;还有借 Onlyfans 入局打造个性化聊天的创业公司。B 端案例中,有帮助 B 端商家搭建 Agent 的机会。 智能体开发平台方面,如字节的扣子 Coze 于 2 月 1 日正式推出国内版,主要用于开发下一代 AI 聊天机器人。国内还有很多智能体开发平台,如 Dify.AI。
2025-03-11
智能客服系统的搭建
智能客服系统的搭建可以参考以下内容: FastGPT 是一个基于大语言模型(LLM)的知识库问答系统,具有以下特点和优势,适用于智能客服系统的搭建: 1. 基于 LLM 的问答:采用先进的 LLM 技术,能理解自然语言并生成高质量答案。 2. 知识库支持:可连接外部知识库获取更全面信息。 3. 可视化工作流:提供可视化工作流编排工具,方便创建复杂问答场景。 4. 开箱即用:提供数据处理和模型调用功能,方便快速上手。 其应用场景包括构建智能客服系统,为客户提供 7x24 小时自动问答服务。 在“Show Me 扣子 AI 挑战赛大消费行业专场”中,有作品帮助企业快速建立产品智能客服体系,通过用户意图识别、知识库检索答案、AI 大模型总结输出答案、多轮对话沟通、对话分析打标、自动更新知识库 FAQ 以及客服效果分析,提供全面的 AI 客服解决方案,提高 AI 客服回答的准确率,降低企业商用 AI 客服的门槛。 AIGC 在客户关系管理(CRM)领域也有相关应用,例如基于 AIGC 的对话模型可开发智能客服系统,通过自然语言交互解答客户咨询、投诉等,缓解人工客服压力。 总之,搭建智能客服系统可以综合利用上述技术和方法,以满足企业和用户的需求。
2025-03-11
如何本地部署deep seek
要在本地部署 DeepSeek,以下是一些相关要点: 1. 云服务器部署:如果拥有云服务器,可以按照特定方法进行本地部署,同时了解满血版本地部署的实际情况。 2. 免费额度:在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。 3. 平台服务差异:了解 DLC、DSW 和 EAS 等模型部署平台服务的差别。 4. 模型蒸馏微调:会带着大家复现模型的蒸馏和微调,并讲解相关知识。 5. 阿里云派平台:派平台以云基础设施和 GPU 算力资源为底层,搭建 AI 框架并做优化,提供一键式快捷部署工具等。与百炼不同,它开放更多自由度,租户数据隔离。很多大模型在此训练,支持多机分布式部署等,既面向企业,也适合个人创业者,不同应用定价有差异。
2025-03-11
视频号数字人
以下是关于视频号数字人的相关内容: 制作方法: 1. 准备内容:先准备一段视频中播放的文字内容,如产品介绍、课程讲解、游戏攻略等,也可利用 AI 生成。 2. 创建视频内容:使用剪映 App 进行简单处理。电脑端打开剪映 App,点击“开始创作”,选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号添加文字内容轨道,将准备好的文字内容替换默认文本内容,为数字人提供语音播放内容及生成相应口型。 3. 生成数字人:在显示区域,拖动背景图的一个角将图片放大到适合尺寸,覆盖视频窗口,并将数字人拖动到合适位置。增加字幕,点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角的“导出”按钮,导出视频以作备用。若希望数字人换成自己希望的面孔,需用另一个工具来进行换脸。 类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(柳夜熙)、内容创作()等。 2. 真人形象数字人:用于直播卖货,营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等。 价值: 1. 代替人说话,提升表达效率和营销效率,如真人无法 24 小时直播,数字人可以。 2. 创造真实世界无法完成的对话或交流,例如 AI talk 的实验探索,复活故去的亲人等。 面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货是落地场景,但不刚需。“懂得都懂”的刚需场景,国内搞不了,目前更多是体验新鲜感。 4. 伦理/法律限制:声音、影像版权等,比如换脸、数字永生等。
2025-03-11
学习coze 怎么入门
学习 Coze 入门可以参考以下方法: 1. 首先,可以通过体验共学快闪活动中参赛的作品来初步了解 Coze 的功能和应用。 2. 观看相关的分享回放,例如: 5 月 7 号,大聪明分享“Agent 的前世今生”,了解每个分享人最初接触 Coze 的情况以及现在的使用情况。 5 月 8 号,大圣分享“我眼中的 AI Agent 以及通过搭建知识库实例入门 Coze”。 5 月 9 号,艾木分享“Agent 系统的核心构成:Workflow 和 Multiagent Flow(以‘Dr.Know’和‘卧底’为例)”并参加线上答疑。 5 月 10 号,罗文分享“一个方法解锁 COEZ 所有插件的用法+如何自动化解锁每天抓取 X 内容+改写+发布到飞书”。 5 月 11 号,Itao 分享“和 AI 成为搭子”并参加线上答疑。 3. 了解 Coze 是字节跳动做的 AI agent 产品,中文名为扣子,它是一套工作流,能让 AI 做您想让它做的事情,并且运行更稳定。 4. 体验一些不错的扣子应用,如爸妈防骗助手、热点文章生成器等,以加深对 Coze 的理解和应用能力。
2025-03-11