Navigate to WaytoAGI Wiki →
Home/All Questions
midjourney的平替
以下是关于 Midjourney 的相关信息: Midjourney V6 更新角色一致性命令“cref”:您可以仅描述环境、背景等,Midjourney 会努力将角色融入场景中,但可能会有不连贯的结果,此时可尝试更高值的样式化(如s 800)。场景唯一提示示例:在一个空荒地下,乌云密布的暴风雨天空下。cref https://my.image.host/joisstanding.jpg 。注意该命令适用于单一主题、单一角色的图像,若要添加多个角色,需使用平移按钮。将多个角色放置到单个画布上的最佳方法是使用平移功能将新画布与现有画布拼接,每个新画布部分都有自己的 cref。具体操作:1.使用/settings 将 Remix 打开,然后选择;2.选择包含第二个字符的图像,用 U 将其从网格中分离出来;3.寻找蓝色小箭头(⬆️⬇️⬅️➡️),每个都会在现有图像中添加新图像,选择新角色前进方向并输入提示及其cref,缝合新画布,比如描绘两个人的开场提示。 训练 Midjourney 的 prompt:style<4a,4b or 4c>可在 Midjourney 模型版本 4 之间切换。stylize<number>或s<number>参数影响 Midjourney 默认美学风格应用于 Jobs 的强度。还有uplight 和upbeta 等参数。默认值(模型版本 5)包括纵横比、混沌、质量、种子、停止、样式化等,各有相应的默认值和范围。纵横比大于 2:1 为实验性的,可能产生不可预测的结果。不同模型版本和参数具有兼容性。
2025-03-18
漫画生成
以下是关于漫画生成的相关信息: Anifusion: 这是一款基于人工智能的在线工具,网址为 https://anifusion.ai/ ,其 Twitter 账号为 https://x.com/anifusion_ai 。 主要功能: 能根据用户输入的文本描述生成相应的漫画页面或动漫图像。 提供预设模板和自定义漫画布局的直观布局工具。 拥有强大的浏览器内画布编辑器,可调整角色姿势、面部细节等。 支持多种 LoRA 模型,实现不同艺术风格和效果。 用户对创作作品拥有完整商业使用权。 使用案例: 独立漫画创作。 快速原型设计。 教育内容创作。 营销材料制作。 粉丝艺术和同人志创作。 优点:非艺术家也能轻松创作漫画,基于浏览器无需安装额外软件,具备快速迭代和原型设计能力,并拥有创作的全部商业权利。 北大团队提出「自定义漫画生成」框架 DiffSensei: 故事可视化是从文本描述创建视觉叙事的任务,现有文本到图像生成模型存在对角色外观和互动控制不足的问题,尤其是在多角色场景中。 北大团队提出新任务“自定义漫画生成”及 DiffSensei 框架,该框架集成了基于扩散的图像生成器和多模态大语言模型(MLLM),采用掩码交叉注意力技术,可无缝整合字符特征实现精确布局控制,基于 MLLM 的适配器能调整角色特征与特定面板文本线索一致。 还提出 MangaZero 数据集,包含大量漫画和注释面板。 论文链接:https://arxiv.org/abs/2412.07589 ,项目地址:https://jianzongwu.github.io/projects/diffsensei/ 。 Niji V5 漫画生成: 漫画是起源于日本的流行艺术形式,有多种类型。 提供了一些漫画生成的提示示例,如“John Wick,漫画屏幕色调,屏幕色调图案,圆点图案,更大且间距更宽的点,高质量—ar 3:2—niji 5”等。 指出在 Niji Version 5 中能看到更多细节,尤其是面部表情,还可使用/describe 命令向 Midjourney 询问喜欢的动漫场景灵感,新的 MidJourney 命令—Image2Text 可生成准确描述图像的文本提示。
2025-03-18
在哪里可以了解更多有关stable diffusion ai 生图的使用方法?
以下是了解更多有关 stable diffusion ai 生图使用方法的途径: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion ,进入 ARTISAN 频道,任意选择一个频道。输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,可免费试用三天,三天后开始收费。输入/dream 提示词,这部分和 MJ 类似。可选参数有五类,包括 prompt(提示词,正常文字输入,必填项)、negative_prompt(负面提示词,填写负面提示词,选填项)、seed(种子值,可以自己填,选填项)、aspect(长宽比,选填项)、model(模型选择,SD3,Core 两种可选,选填项)、Images(张数,14 张,选填项)。完成后选择其中一张。 2. 下次作图时,先选择模板,点击倒数第二个按钮,就能将标准提示词快速输入。描述逻辑通常包括人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。对于新手,可通过功能型辅助网站来写提示词,如:http://www.atoolbox.net/ ,它可以通过选项卡的方式快速填写关键词信息;https://ai.dawnmark.cn/ ,其每种参数都有缩略图可参考,方便更直观选择提示词。还可以去 C 站(https://civitai.com/)抄作业,每一张图都有详细参数,点击下面的复制数据按钮,然后直接粘贴到正向提示词栏里,点击生成按钮下的第一个按键,Stable Diffusion 就可以将所有参数自动匹配。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同。也可以只取其中较好的描述词使用,比如人物描写、背景描述、一些小元素或者画面质感之类的。 3. 将照片放入到后期处理中,使用 GFPGAN 算法将人脸变清晰,可参考文章—— 。将图片再发送到图生图当中,打开 stableSR 脚本,放大两倍。切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可以什么都不写,以免对原图产生干扰。
2025-03-18
如何使用stable diffusion?
以下是关于如何使用 Stable Diffusion 的详细介绍: 一、用 Stable Diffusion 装饰二维码 1. 首先使用 img2img 生成类似于 QR 码的图像,但这还不足以生成有效的二维码。 2. 在采样步骤中打开 ControlNet,以将 QR 码压印到图像上。在采样步骤接近尾声时,关闭 ControlNet 以提高图像的一致性。 3. 分步指南: 在 AUTOMATIC1111 WebUI 中,导航到 Img2img 页面。 选择检查点模型,例如。 输入提示和否定提示,提示词如:a cubism painting of a town with a lot of houses in the snow with a sky background,Andreas Rocha,matte painting concept art,a detailed matte painting;否定提示如:ugly,disfigured,low quality,blurry,nsfw。 上传二维码到 img2img 画布。 输入以下图像到图像设置:Resize mode:Just resize;Sampling method:DPM++2M Karras;Sampling step:50;Width:768;Height:768;CFG Scale:7;Denoising strength:0.75。 将二维码上传到 ControlNet 的图像画布。 输入以下 ControlNet 设置:Enable:Yes;Control Type:Tile;Preprocessor:tile_resample;Model:control_xxx_tile;Control Weight:0.87;Starting Control Step:0.23;Ending Control Step:0.9。 按生成。 用手机查看二维码,确保检查屏幕上的不同尺寸。 二、Stable Diffusion 的核心组件和相关概念 1. Stable Diffusion 是一种扩散模型的变体,最初称为潜在扩散模型。 2. CLIP 将用户输入的 Prompt 文本转化成 text embedding。 3. 核心组件包括 VAE EncoderDecoder、UNET(进行迭代降噪,在文本引导下进行多轮预测)。 4. 模型存放路径:ComfyUI 存放路径为 models/checkpoints/。 5. 基础预训练模型包括 SD1.5 和 SDXL。 6. 训练方法有 DreamBooth 等。 7. 模型格式有.pt 和.safetensor。 8. 存在模型自带已适配的 VAE、微调模型、融合模型等。 三、安装 Stable Diffusion 前的电脑配置要求 1. 电脑系统需为 Win10 或者 Win11,避免使用更低版本的系统。查看电脑系统的方法:在桌面上找到“我的电脑”——鼠标右键点击——点击“属性”——查看 Windows 规格。 2. 检查电脑性能,需要满足以下 3 个要求: 电脑运行内存 8GB 以上。 是英伟达(俗称 N 卡)的显卡。 显卡内存 4GB 以上。 检查方法: 鼠标右击桌面底部任务栏——点击“任务管理器”。 查看电脑的运行内存,在“性能”里面找到“内存”,只要看图中划线的那一个参数即可。8GB 说明电脑配置内存勉强达到标准;16GB 说明内存配置可以正常使用;32GB 则可以非常自由地使用 SD。 查看“GPU”,首先看右上角显卡的名字或者型号,必须确认是 NVIDIA,代表的是英伟达的显卡(俗称 N 卡)。
2025-03-18
cursor IDE 使用妙招
以下是关于 Cursor IDE 的使用妙招: 1. 下载和安装: 打开 Cursor 的官网,点击 download 进行下载和安装,无需魔法上网即可访问。 2. 实现简单需求: 安装后打开,页面与其他编程 IDE 相似。可通过 commd+L 调起 AI 对话,输入需求或想实现的效果。 整体页面左侧是代码文件,右侧是提示对话框。提前创建文件,点击对话框代码块旁的“Apply”“Accept”将代码保存在左侧文件里。 若不知如何运行,对话框一般会告知使用方法,不清楚或报错可继续追问。 还可在基础上继续修改,如希望拖动、颜色更美观、显示分钟等,在对话框表达需求,点击“Apply”→“Accept”、保存文件、验证测试。 3. Tips 小结: 在对话框里不断追问,逐步完善需求。 对话时可@本地代码文件进行问答,获得更精准回答。 本地存一份需求说明文档(也可让其生成),迭代时随时让它查阅。 遇到报错或不理解的地方,截图或复制在对话框询问,要求对细节操作解答,直至验证成功。 不要恐惧代码,从简单小需求练手,熟悉后配合会更顺畅。 此外,Cursor 还能与 Obsidian 结合,主要有以下三类作用: 1. 帮助用模糊问题检索笔记库,而非关键字。 2. 帮助基于笔记库进行研究,结合多个笔记软件给出建议。 3. 帮助生成和修改笔记,如生成整个笔记文件或修改已写笔记文案。 Cursor 的本质: 1. 在传统 IDE 基础上,搭配良好的交互与足够好的 LLM,超越传统 IDE。 交互方面,补充提供了更适配 LLM 场景的上下文引用能力(即@codebase/@files 等 symbol 指令)。 有适合复杂编程的 Composer 面板,可在此与 LLM 保持较长时间回话,支持多文件编辑。 提供几乎毫无门槛的代码自动补全能力,支持多行编辑,修改变量名时好用。 支持在 Terminal 中唤醒 LLM 交互面板,实现命令生成、命令行错误处理等能力。 这些交互创新贴合开发者习惯,为 LLM 提供更多上下文信息,提升模型效果,专业程序员无需过多学习,能很快上手应用,几乎无缝接入。 2. 未过多投入精力开发自己的大模型,提供流畅的模型切换功能,用户可在配置面板按意愿在各种上下文中切换主流 LLM。这是聪明的产品决策,既规避投入大模型研发的风险,又给予用户自由度,容易获得种子用户信任。
2025-03-18
生成论文
以下是关于生成论文的相关内容: 生成调研报告的步骤和经验: 1. 确定调研报告的大纲目录:可利用老师提供的示例报告截图并用手机识别。 2. 确定整体的语言风格和特色:调研报告语言风格一般是“逻辑清晰,层层递进,条理分明”,可将范文交给 Claude 2 总结语言风格。 3. 让 GPT4 生成章节内容:在 workflow 中设置循环结构,生成一段章节内容后经同意再进行下一部分,否则重新生成。注意不要过于限制 GPT4,否则效果不佳。 4. 处理章节信息搜索:生成内容前需 GPT4 判断某章节是否调用 webpolit 插件查询相关信息。此部分较难,迭代时间长,可在需要搜索网络信息的章节处打上标签,让 GPT4 自主搜索信息后生成内容。 相关新闻: 1. Sakana AI 用 AI Scientistv2 模型生成的论文通过 ICLR 2025 双盲评审,但主动撤回论文,呼吁学术界先制定 AI 论文规范。 2. 越来越多的 PPT 由 AI 生成,内容与实际工作脱节,汇报成了“敷衍应付”,建议限制 PPT 只在成果汇报时使用,不再作为提案主工具。
2025-03-18
gemini本地部署
Gemini 相关信息如下: Mistral Small 3 仅 24B 参数,但性能媲美 70B 级别模型,适合本地部署。 Gemini 2.0 Flash 正式上线,高级用户支持 100 万 token(1M)上下文窗口,可处理 1500 页文件,新增 Deep Research&Gems 等高级功能,提升任务深度理解能力,图像生成功能升级至 Imagen 3,优化细节与指令解析,Gemini 1.5 Flash&Pro 将继续提供数周支持,助用户平稳过渡。 AlphaCode 团队构建了基于 Gemini 的 AlphaCode 2,将 Gemini 的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。同时,Gemini Nano 提升了效率,在设备上的任务中表现出色,如摘要、阅读理解、文本补全等,在推理、STEM、编码、多模态和多语言任务中展示出令人印象深刻的能力。在评估方面,涵盖了良好的研究 Benchmark 和人类偏好的评估,包括文本、代码、图像、音频和视频,包括英语性能和多语言能力。还讨论了部署方法,包括影响评估、制定模型策略、评估和减轻危害的过程。最后探讨了 Gemini 的更广泛影响、局限性和潜在应用。
2025-03-18
ai对论文大纲的扩写
以下是关于 AI 对论文大纲扩写的相关内容: 利用 AI 技术进行论文大纲扩写可以参考以下步骤和方法: 1. 确定主题:明确研究兴趣和目标,选择具有研究价值和创新性的主题。 2. 收集背景资料:使用学术搜索引擎和文献管理软件等 AI 工具搜集相关研究文献和资料。 3. 分析和总结信息:借助 AI 文本分析工具提取关键信息和主要观点。 4. 生成大纲:使用 AI 写作助手生成包括引言、文献综述、方法论、结果和讨论等部分的大纲。 5. 开始扩展:以具体内容为例深化理解,如“AI 辅助写作的优势”,可详细描述个人经验中 AI 提高写作效率、提供创意思路、克服写作瓶颈以及处理和分析数据的具体表现。 6. 持续优化和润色:在扩展每个部分后,与 AI 互动,请其审阅并提供进一步的优化建议,如指出表达不清的地方,建议添加转折句增强连贯性。 需要注意的是,AI 工具可以作为辅助,但不能完全替代研究者的专业判断和创造性思维。在使用 AI 进行论文大纲扩写时,应保持批判性思维,并确保研究的质量和学术诚信。
2025-03-18
如何生成图片
以下是几种生成图片的方法: 1. 通过 MJ 应用为 PPT 配图: 复制图片网址,打开 discord,在聊天栏输入“/imagine prompt”。 回到官网复制图像的提示词,粘贴到 discord 中网址后面并空格。 输入命令生成图像,若效果不理想可多反复生成几次。 放大觉得不错的图,可通过 Custom Zoom 改变比例和镜头拉远,如将“ar”参数后的数值改成 16:9,“zoom”参数设置为 1.5 到 1.7。 检查构图,若不理想可在当前图基础上再用一次 Zoom Out 1.5x。 2. 使用 PS Beta 版本的 Firefly Image 3 模型: 生成填充由 Adobe Firefly Image 3 模型提供支持,可提高摄影质量、精确控制输出、更好理解复杂描述和生成多样结果。 可使用参考图像生成变体,上传参考图像以指导创意工作流程并生成更相关和定制的变体,还可与描述性文本提示配对控制生成结果。 包括调整画笔、生成类似内容、生成背景、增强细节等功能。 3. 使用 LayerStyle 副本的 LayerUtility 中的 TextImage: 从文字生成图片以及遮罩,支持字间距、行间距调整,横排竖排调整,可设置文字的随机变化,包括大小和位置的随机变化。 节点选项包括 size_as、font_file、spacing、leading、horizontal_border、vertical_border、scale、variation_range、variation_seed、layout、width、height、text_color、background_color 等。
2025-03-18
AI是什么
AI 是一种模仿人类思维、能够理解自然语言并输出自然语言的存在。对于不具备理工科背景的人来说,可以将其视为一个黑箱。 从历史和技术角度来看,AI 的概念可以追溯到计算机科学和人工智能之父图灵。他提出的“图灵测试”为判断机器是否具有智能提供了方法。如今,像 ChatGPT 这样的 AI 产品在与人交流方面已经有了令人震惊的表现,尽管对于其是否通过图灵测试在学术界仍有争议。 目前的 AI(主要是生成式 AI 技术,也被称为大模型)能够接受和理解各种不同的输入和数据,并生成包括文字、声音、图像、视频、3D 模型等多样的内容。简单来说,可以把 AI 当人看。
2025-03-18