Navigate to WaytoAGI Wiki →
Home/All Questions
我想学习ai视频ai生图的相关技能,并且我不想速成,我想了解其中的底层原理以便可以更好的控制生成的内容,我应该如何学习
以下是关于学习 AI 视频和生图相关技能的一些建议: 一、基础概念 1. 模型 Checkpoint:生图必需的基础模型,任何生图操作必须选定一个才能开始。 Lora:低阶自适应模型,可视为 Checkpoint 的小插件,用于精细控制面部、材质、物品等细节。 VAE:编码器,功能类似于滤镜,可调整生图的饱和度,一般选择 840000 这个。 2. 提示词 Prompt 提示词:想要 AI 生成的内容,需要花费功夫学习,可从照抄别人开始。 负向提示词 Negative Prompt:想要 AI 避免产生的内容,同样需要学习,可从照抄开始。 3. 其他概念 ControlNet:控制图片中特定图像,如人物姿态、特定文字、艺术化二维码等,属于高阶技能,可后续学习。 ADetailer:面部修复插件,用于治愈脸部崩坏,是高阶技能。 二、参数设置 1. 迭代步数:AI 调整图片内容的次数。步数越多,调整越精密,出图效果理论上更好,但耗时越长,且并非越多越好。 2. 尺寸:图片生成的尺寸大小,需适中选择,太小生成内容有限,太大 AI 可能放飞自我。 3. 生成批次和每批数量:决定重复生成图的批次和每批次同时生成的图片数量。 4. 提示词引导系数:指图像与 prompt 的匹配程度,数字增大图像更接近提示,但过高会使图像质量下降。 5. 随机数种子:固定后可对图片进行“控制变量”操作,首次生成图时无需关注。 6. 重绘幅度:图生图时用到,幅度越大,输出图与输入图差别越大。 在学习过程中,您可以先从熟悉基础模型、提示词和常见参数设置入手,通过实践和参考他人的经验不断积累知识,逐步掌握更高级的技能和工具。
2025-03-24
视频变清晰
以下是一些可以让视频变清晰的方法和相关工具: 1. 利用视频模型“可灵”:使用获奖作品、丰富细节等关键词,加上表现情绪和氛围的词以及明亮的颜色,能让视频变清晰。 2. “UpscaleAVideo”工具:由南洋理工大学 SLab 实验室开发,能够将低分辨率视频转换为高分辨率,同时提高清晰度和细节。它可以通过文本提示修改视频内容,比如提升特定物体的细节或改善整体视觉效果,还能确保视频帧的平滑过渡。 3. “Topaz Video AI”:由美国犹他州的 Topaz Labs 公司于 2022 年推出,能够提升视频清晰度、支持将视频升级到最高 60 帧的水平。还提供了算法模型用于减少闪烁、去噪、去除动态模糊、颜色校正、慢动作等。价格为 299 美刀。官方地址:https://www.topazlabs.com/topazvideoai ,使用指南:https://docs.topazlabs.com/videoai/features/userinterface 。在实践中,将 Deforum 中的赛车图生视频拖入 Topaz 中进行生成,能改善闪烁问题并使视频清晰。
2025-03-24
关于agent,图片生成
以下是关于 agent 和图片生成的相关信息: 关于 Agent Scheduler 插件用于图片生成: 点击排队设置任务,可在控制面板查看处理生成中的任务。 不想立即运行可点击暂停,也可在设置中勾选“禁用队列自动处理”。 可设置多个任务,完成后在任务历史中查看参数和结果,不满意可重新生成。 如需该插件,可添加公众号【白马与少年】回复【SD】获取。 Agent 相关比赛: 赛道包括图文创作赛道、实用工具赛道、互动创意赛道。 参考方向有内容生成、图像标注、图文匹配、数据可视化、设计辅助、自动化排版、图文识别、新闻和社交媒体、艺术创作、智能产品设计等。 AIGC 相关: Meta 开源了名为 Image Bind 的 AI 模型,是首个能同时绑定六种模式数据的模型,能推进人工智能在跨模式检索、嵌入空间算法、生成等方面的发展。 HuggingFace Transformers Agent 使编码 LLM 能动态组合其他 HF 模型解决多模态任务,提供自然语言 API,具有可扩展性,有单次运行和聊天执行两种方法,预定义工具包括文档问答、文本问答、图像生成等。
2025-03-24
现在哪个ai搜索工具最好用
以下是一些好用的 AI 搜索工具: 1. 秘塔 AI 搜索:由秘塔科技开发,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升搜索效率和体验。 2. Perplexity:聊天机器人式的搜索引擎,允许用自然语言提问,通过生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出,通过 AI 分析问题,生成清晰有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持多模态搜索。 5. Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 此外,能联网检索的 AI 有: 1. ChatGPT Plus 用户现在可以开启 web browsing 功能,实现联网。 2. Perplexity,结合了 ChatGPT 式的问答和普通搜索引擎的功能,允许用户指定希望聊天机器人在制定响应时搜索的源类型。 3. Bing Copilot,作为 AI 助手,旨在简化在线查询和浏览活动。 4. You.com 和 Neeva AI 等搜索引擎,提供基于人工智能的定制搜索体验,并保持用户数据的私密性。 在 2025 年必用的 AI 搜索工具中,Perplexity 被认为是年度最佳 AI 搜索。早在 2022 年,它就开始探索 AI 搜索领域,对许多后续产品有启发。一个 AI 搜索产品的优劣取决于 AI 的理解和整理能力,以及引用信息的质量。Perplexity 的官网是:https://perplexity.ai/,Pro 会员每月 20 美元,成为 Pro 会员后,可以使用高级模型,并享受无限制的 Pro 搜索。在专业搜索模式(Pro 搜索)中,对于复杂问题,可分别进行多次搜索以获取更全面的信息。
2025-03-24
微信机器人
以下是关于微信机器人的相关内容: 测试和重新配置 1. 登录成功后,找另一个人私聊或者在群中@您,就可以看到机器人的正常回复,此时表示已通。若未通过,可检查 config.json 文件中的配置或直接跳到“第四章,第 3 步”重启服务。 2. 为机器人设置不同的提示词,可返回“第三章,第 7 步”或“目录 4 里的第 17 步”进行更改。 3. 此后任何更改,都需要“返回首页 右上角 点击重启,重启一下服务器”,或者在熟悉 linux 操作的情况下通过重启进程的方式来重启服务。 4. 重新在“文件”的【终端】里,直接输入“nohup python3 app.py&tail f nohup.out”重新扫码登录即可。 5. 若想退出机器人,在手机微信上找到桌面版已登录的信息,点击退出桌面版即可。 帮助 如果遇到问题,可以先查询社区知识库,或者加“通往 AGI 之路”群,社区小伙伴们(比如梦飞大佬,熊猫大侠)会尽力帮助。也可以加 Stuart 个人微信询问。 第一天教程:COW 部署 1. 登录成功后,找另一个人私聊或者在群中@您,就可以看到机器人的正常回复,此时表示已通。 2. 若想设置提示词,可返回“目录 4 里的第 17 步”进行更改。 3. 此后任何更改,都需要重新打印登陆二维码才会生效。建议在多次重新登录后,在宝塔“首页 右上角 点击重启,重启一下服务器”清理进程。 4. 重新在“文件”的【终端】里,直接输入“nohup python3 app.py&tail f nohup.out”重新扫码登录即可。 5. 如果没有手机登录,可以使用夜神模拟器模拟手机登录。 6. 一个月内,不要上来就加好友、最好不要私聊聊天。 7. 报错“wxsid”是因为微信未实名,实名即可。 8. Link AI 提供 100 个,合计 3500 万 GPT3.5 Token 的礼品码,可用于实现画图、搜索、识图等功能,COW 插件里几乎都支持使用 LinkAI 平台。完成机器人搭建,机器人拉群里,可领兑换码。 9. 添加微信,拉您进机器人群,先行体验。 COW 问题 1. 微信机器人无法正常画图,给的图片链接点进去有错误提示“{"Success":1,"error":{"code":4008,"message":"The specified key does not exist."}}”,查看/root/chatgptonwechat/run.log 中有相关提示。可能是点击链接时多了一个小括号。 2. 扫码后,手机登陆后,没有任何机器人的反应,可能是配置错误或安装不对,需根据步骤逐一检查或重装。 3. 按照在 coze 上的设计,输入特定数字后,会出现相应内容,由于内容生成需要时间,因此生成前加了“内容加速生成中,请稍等”的消息,在 coze 中运行正确,但在微信机器人中,始终只显示内容生成中的消息,后面的内容不会出现。这不是问题,COW 本身处理不了,一次只能调取一个对话。有代码能力,可以直接调整代码实现。 4. 宝塔之后登录的时候登录不上去,按下图所示重启服务器之后即可,重启时间可能会久,但一定会重启成功,请耐心等待。
2025-03-24
大模型 关键性能指标
对比不同大模型的性能需要考虑多个维度,包括但不限于以下方面: 1. 理解能力:评估对语言的语法、语义、上下文和隐含意义的理解程度。 2. 生成质量:检查生成文本的流畅性、相关性和准确性。 3. 知识广度和深度:掌握广泛主题的知识程度,以及对特定领域或话题的理解深度。 4. 泛化能力:测试处理未见过任务或数据时的表现。 5. 鲁棒性:应对错误输入、对抗性输入或模糊不清指令的能力。 6. 偏见和伦理:生成文本时是否存在偏见,是否遵循伦理标准。 7. 交互性和适应性:在交互环境中的表现,包括对用户反馈的适应性和持续对话能力。 8. 计算效率和资源消耗:考虑模型大小、训练和运行所需的计算资源。 9. 易用性和集成性:是否易于集成到不同应用和服务中,提供的 API 和工具的易用性。 为了进行有效的比较,可以采用以下方法: 1. 标准基准测试:使用如 GLUE、SuperGLUE、SQuAD 等标准的语言模型评估基准,它们提供统一的测试环境和评分标准。 2. 自定义任务:根据特定需求设计任务,评估在特定领域的表现。 3. 人类评估:结合人类评估者的主观评价,特别是在评估文本质量和伦理问题时。 4. A/B 测试:在实际应用场景中,通过 A/B 测试比较不同模型的表现。 5. 性能指标:使用准确率、召回率、F1 分数、BLEU 分数等量化比较。 例如,通义千问开源的 Qwen2.51M 大模型,推出 7B、14B 两个尺寸,在处理长文本任务中稳定超越 GPT4omini,同时开源推理框架,在处理百万级别长文本输入时可实现近 7 倍的提速,首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中,Qwen2.51M 能够准确地从 1M 长度的文档中检索出隐藏信息。 Google DeepMind 的 Gemini 2.0 Flash 多模态大模型支持图像、视频、音频等多模态输入,可生成图文混合内容和多语言 TTS 音频。模型原生支持 Google 搜索、代码执行及第三方 API 调用等工具链能力,处理速度较 Gemini 1.5 Pro 提升一倍,关键性能指标已超越前代产品。作为 Gemini 2.0 系列首发模型,在多模态理解与生成方面实现重要突破。产品入口目前通过 Google AI Studio 和 Vertex AI 平台提供实验版 API 接口,预计 2025 年 1 月起全面商用,并将陆续发布 Gemini 2.0 系列其他版本。
2025-03-24
2025年Q1 AI产品流量趋势
以下是 2025 年 Q1 部分 AI 产品的流量趋势情况: |排名|产品|市场|分类|网址|访问量(万)|环比变化| |||||||| |1|deepseek|国内|聊天机器人|chat.deepseek.com|22541|20.4093| |A4+1|Vidu.cn|国内|视频生成|vidu.cn|13|14.776| |A5+1|deepseek 开放平台|国内|开发工具|platform.deepseek.com|1093|10.0697| |A6+1|Height Copilot|海外||height.app|118|8.0517| |A7+1|Choppity|海外||choppity.com|12|2.4443| |A8+1|DreamFace|出海||dreamfaceapp.com|93|2.402| |A9+1|SHORT AI|出海|视频生成|short.ai|11|2.3054| |A10+1|Pikzels|海外|图片生成|pikzels.com|33|2.1555| |A11+1|turbolearn ai|海外||turbolearn.ai|182|2.155| |A12+1|Gumloop|海外|智能体|gumloop.com|38|1.9783| |A13+1|Trickle|海外||trickle.so|13|1.9764| |A89+1|TARS|海外||hellotars.com|17|0.3887| |A90+1|Resume Worded|海外|简历生成|resumeworded.com|236|0.3871| |A91+1|DiffusionBee|海外||diffusionbee.com|11|0.385| |A92+1|Clay 2.0|海外|营销工具|clay.com|92|0.3827| |A93+1|Transkriptor|海外|会议助手|transkriptor.com|503|0.3762| |A94+1|Instantly|海外|销售|instantly.ai|238|0.3721| |A95+1|Sana Labs|海外||sanalabs.com|18|0.3628| |A96+1|即梦 AI|国内|图片生成|jimeng.jianying.com|283|0.3566| |A97+1|Cody|海外|代码助手|meetcody.ai|17|0.3559| |A98+1|ContentBot AI|海外||contentbot.ai|10|0.3559| |A99+1|Gling AI|海外||gling.ai|22|0.3476| |A78+1|KLING AI|出海|视频生成|klingai.com|1704|0.4457| |A79+1|HIVE|海外|研究工具|thehive.ai|10|0.4403| |A80+1|N8n|海外|开发工具|n8n.io|263|0.4309| |A81+1|YouLearn|海外||youlearn.ai|245|0.4304| |A82+1|Cockatoo|海外|会议助手|cockatoo.com|29|0.4111| |A83+1|Leo AI|海外||iamleo.ai|11|0.4071| |A84+1|PhotoAI|海外|形象生成|photoai.me|13|0.4045| |A85+1|MidReal|出海|小说生成|midreal.ai|75|0.4023| |A86+1|liteLLM|海外||litellm.ai|25|0.3927| |A87+1|11x.ai|海外|销售|11x.ai|33|0.392| |A88+1|MediSearch|海外||medisearch.io|23|0.3905|
2025-03-24
AI发展技术原理脑图
以下是关于 AI 发展技术原理的相关内容: 腾讯研究院发布的“AI50 年度关键词”报告,基于全年三十余万字的 AI 进展数据库,精选 50 个年度关键词,覆盖大模型技术的八大领域,通过“快思考”与“慢思考”两种维度进行分析,形成 50 张 AI 技术图景卡片。其中“快思考”维度采用人机协同方式呈现印象卡片,“慢思考”维度深入分析技术发展底层逻辑。 DiT 架构是结合扩散模型和 Transformer 的架构,用于高质量图像生成的深度学习模型,其带来了图像生成质的飞跃,且 Transformer 从文本扩展至其他领域,Scaling Law 在图像领域开始生效。 从 AI 发展历程来看,自 1950 年提出至今短短几十年,在国内近 20 年随着互联网发展才开始普及。最初应用主要是基于 NLP 技术的聊天和客服机器人,随后中英文翻译、语音识别、人脸识别等技术取得突破并广泛应用。但以前模型应用范围相对狭窄,而 OpenAI ChatGPT 等大型语言模型的突破展示了新的发展路线,通过大规模模型预训练可涌现出广泛智能应用。 小白理解 AI 技术原理与建立框架的相关内容包括:思维链可显著提升大语言模型在复杂推理的能力;RAG 是检索增强生成,可搭建企业和个人知识库;PAL 是程序辅助语言模型;ReAct 是 reason 与 action 结合的框架,可让模型动态推理并与外界环境互动。 希望以上内容对您有所帮助。
2025-03-24
5月份AI产品流量趋势
以下是关于 5 月份 AI 产品流量趋势的相关信息: 生成式 AI 季度数据报告涵盖 2024 年 1 至 3 月。GenAI summit 将于 5 月 29 日在旧金山艺术宫举办,为期三天。 总体趋势方面,人工智能行业正在快速增长,尽管在 5 月份左右的峰值之后出现了 12 亿的流量回调,但仍有望继续增长。 提供了不同赛道和竞争情况的相关数据,如天花板潜力 TAM、月平均增速、原生产品占比、马太效应、网络效应、大厂入局情况和技术门槛等。 介绍了一些头部的 AI 产品,如 ChatGPT 保持领先,Claude、Gemini 快速追赶,国内企业 Kimi 3 月快速起量进入流量前 10。 您还可以通过 aiwatch.ai 网址、Toolify 查看更多详细数据。 需要注意的是,部分产品数据保密并受到版权法保护。
2025-03-24
如何从0到1建立dify
从 0 到 1 建立 Dify 的步骤如下: 1. 准备数据: 收集需要纳入知识库的文本数据,包括文档、表格等格式。 对数据进行清洗、分段等预处理,确保数据质量。 2. 创建数据集: 在 Dify 中创建一个新的数据集,并将准备好的文档上传至该数据集。 为数据集编写良好的描述,描述清楚数据集包含的内容和特点。 3. 配置索引方式: Dify 提供了三种索引方式供选择:高质量模式、经济模式和 Q&A 分段模式。 根据实际需求选择合适的索引方式,如需要更高准确度可选高质量模式。 4. 集成至应用: 将创建好的数据集集成到 Dify 的对话型应用中,作为应用的上下文知识库使用。 在应用设置中,可以配置数据集的使用方式,如是否允许跨数据集搜索等。 5. 持续优化: 收集用户反馈,对知识库内容和索引方式进行持续优化和迭代。 定期更新知识库,增加新的内容以保持知识库的时效性。 Dify 有以下两种使用方式: 1. 云服务版本。直接在官网 dify.ai 上注册账号使用。 2. 部署社区版。开源,可商用,但是不能作为多租户服务使用。对个人使用完全无限制。 部署前提条件:2 核 4G 云服务器一台(约 159 元)。 部署过程: 1. 参考 https://docs.dify.ai/v/zhhans/gettingstarted/installselfhosted/dockercompose 。 2. 这些命令在宝塔面板的终端安装。 3. 检查运行情况,如遇到问题(如 80 端口被占用),按照 AI 的方法解决。 4. 在浏览器输入公网 IP 进入,邮箱密码随便填,建立知识库并设置。 5. 选择模型,如智谱 AI,获取钥匙并复制保存。 6. 创建应用并测试发布。
2025-03-24