Navigate to WaytoAGI Wiki →
Home/All Questions
Manus你怎么看
Manus 是一个具有以下特点和情况的 AI 相关产品: 1. 当前的 Manus 约等于 AI 操纵着一个没有图形界面的 Linux 虚拟机和浏览器,能感知电脑环境,执行各类操作。它可以运行各种 Linux 下的指令、库、程序(如 cd、ls 指令、python 等),也能访问各种网页、获取一些 API 接口的数据,但无法运行图形程序。 2. 访问网页时,阻挠人类使用的各种要素会对 Manus 造成干扰,因其没有网页账号和资金。为方便用户介入,Manus 提供了用户可视的命令行视窗、浏览器、vscode 两种选项,方便查看运行指令、接管网页和修改文件,这也反向说明了 Manus 现在的活动边界。 3. Manus AI 能够较顺畅地和网页交互、读数据、点元素、打游戏,甚至能从无图形界面随时切换到用户可接管的图形界面。 4. Manus 一经预览发布便引爆 AI 圈,邀请码被炒至数千美元,Discord 社区人数破 13 万。但在实测中存在多次崩溃、速度慢、上下文能力差等问题,部分演示视频功能被证实为误导,其热度更多来自饥饿营销,技术实力尚未达到“自主研发”的高度。 5. Monica 团队发布的 Manus 区别于传统 AI 助手,能自主完成复杂任务,不仅生成想法,还能直接执行并交付结果。其具有自主执行、类人工作模式、云端异步运行、持续学习和记忆以及“心智与手”的理念等核心亮点。
2025-03-13
市面上主流的大模型有什么区别
市面上主流的大模型主要有以下区别: 1. 架构类型: Encoderonly:适用于自然语言理解任务,如分类和情感分析,代表模型是 BERT。 Encoderdecoder:同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容,用例包括翻译和摘要,代表是 Google 的 T5。 Decoderonly:更擅长自然语言生成任务,众多 AI 助手采用此结构,如 ChatGPT。 2. 处理信息类型: 大型语言模型:专注于处理和生成文本信息。 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息。 3. 应用场景: 大型语言模型:主要用于自然语言处理任务,如文本翻译、文本生成、情感分析等。 大型多模态模型:可应用于图像识别与描述、视频分析、语音识别与生成等更广泛的领域。 4. 数据需求: 大型语言模型:主要依赖大量的文本数据进行训练。 大型多模态模型:需要多种类型的数据进行训练,包括文本、图片、音频等。 5. 规模: 大模型的预训练数据非常大,往往来自互联网,包括论文、代码、公开网页等,一般用 TB 级别的数据进行预训练,参数也非常多,如 OpenAI 在 2020 年发布的 GPT3 就已达到 170B 的参数。 6. 优秀模型: GPT4(网页版)、GPT4(API)、智谱清言、通义千问 2.0、AndesGPT(OPPO)、文心一言 4.0(API)、MoonShot(KimiChat)、Claude2、360 智脑、Qwen72BChat、文心一言 4.0(网页版)等。 7. 性能表现:国内外大模型存在差距,如 GPT4 Turbo 总分 90.63 分遥遥领先,国内最好模型文心一言 4.0(API)总分 79.02 分,与 GPT4 Turbo 有一定差距。
2025-03-13
免费的文生视频的软件
以下是一些免费的文生视频软件: 1. Pika:擅长动画制作,支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion ,可安装此插件,在图片基础上生成视频,由 Stability AI 开源。 3. Haiper:有免费额度,能生成 HD 超高清的视频,文生视频支持选择风格、秒数、种子值等。 4. DynamiCrafter:免费,可生成 2 秒图生视频,还能做短视频拼长视频。 此外,还有通义万相,可免费使用,地址为:https://tongyi.aliyun.com/wanxiang/wanxvideo 。它全新发布自研 AI 视频生成大模型,具备多种优势。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。 内容由 AI 大模型生成,请仔细甄别。
2025-03-13
入门指南
2025-03-13
虚拟人工具
以下是一些制作虚拟人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台的 AI 语音机器人会自动转换成语音,然后合成逼真的会开口说话的视频。 此外,还有适合小白用户的开源数字人工具,具有一键安装包,无需配置环境,简单易用的特点。能生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选,系统兼容 Windows、Linux、macOS,模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。您可以通过以下链接获取: GitHub: 官网: 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。
2025-03-13
SD 反推模型
以下是关于 SD 反推模型的相关内容: Fooocus 模型: LoRA 模型默认放在:Fooocus_win64_1110\\Fooocus\\models\\loras 程序默认用到 3 个 SDXL 的模型,包括一个 base、一个 Refiner 和一个 LoRA。单独安装需下载三个模型: SDXL 基础模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_base_1.0_0.9vae.safetensors refiner 模型:https://huggingface.co/stabilityai/stablediffusionxlrefiner1.0/resolve/main/sd_xl_refiner_1.0_0.9vae.safetensors LoRA 模型:https://huggingface.co/stabilityai/stablediffusionxlbase1.0/resolve/main/sd_xl_offset_examplelora_1.0.safetensors 若部署了 SD 秋叶包,可共用模型(大模型和 LoRA),通过修改 Fooocus_win64_1110\\Fooocus\\modules\\path.py 文件中的路径来配置,修改为秋叶包模型对应的路径,如: 大模型路径:sdwebui\\models\\Stablediffusion\\SDXL LoRA 模型路径:sdwebui\\models\\lora 配置好后点击 run.bat 文件启动。 Comfyui SD 学社做黏土头像的相关插件: 提示词反推 WD14Tagger:https://github.com/pythongosss/ComfyUlWD14Tagger,首次使用会自动下载模型(需要网络环境) 处理人物一致性: IPAdapter:https://github.com/cubiq/ComfyUI_IPAdapter_plus 也可以用 instantID,这里使用的是 IPadpter,后续很多地方也会用到,建议先使用起来。关于 IPAdapter 的使用,之前有文章介绍。 ControlNet: 预处理的插件:comfyui_controlnet_aux https://github.com/Fannovel16/comfyui_controlnet_aux ControlNet 模型: XLCN 模型下载:https://huggingface.co/lllyasviel/sd_control_collection/tree/main 1.5 理模型下载:https://huggingface.co/lllyasviel/ControlNetv11/tree/main ControlNet 的 tile 模型: 随着 ControlNet1.1 的更新,tile 模型横空出世,其强大的功能让之前的一些模型变得有点黯然失色。 可用于高清修复小图,比如将分辨率不高的食物图片拖进“WD 1.4 标签器”反推关键词,然后发送到图生图。使用大模型“dreamshaper”调整参数尺寸,放大为 2K,提示词引导系数官方推荐在 15 以上,重绘幅度在 0.5 以上。 可用于修复和增加细节,如处理一张细节不足且结构错误的小屋图。tile 的预处理器用来降低原图的分辨率,为新图添加像素和细节提供空间。若图片本身像素很低,可以不使用预处理器,直接使用 tile 模型。
2025-03-13
AIGC是什么意思
AIGC 是 AI generated content 的缩写,又称为生成式 AI,指利用人工智能技术生成的内容,例如 AI 文本续写、文字转图像的 AI 图、AI 主持人等。 AIGC 工具通常使用机器学习算法,以自然语言处理为基础,分析大型文本数据集,并学习如何生成风格和语气相似的新内容。其应用领域广泛,包括内容创作、广告、媒体等。 能进行 AIGC 的产品项目和媒介众多。语言文字类有 OpenAI 的 GPT、Google 的 Bard、百度的文心一言等;语音声音类有 Google 的 WaveNet、微软的 Deep Nerual Network、百度的 DeepSpeech 等;图片美术类有早期的 GEN 等图片识别/生成技术,去年大热的扩散模型又带火了 Midjourney、谷歌的 Disco Diffusion、OpenAI 的 Dalle·2 以及 stability ai 和 runaway 共同推出的 Stable Diffusion 等。 AIGC、UGC(普通用户生产)和 PGC(专业用户生产)都是内容生成的不同方式。AIGC 由人工智能生成内容,可快速大规模生成,适用于自动化新闻、广告创作等;UGC 由用户生成,内容丰富多样,适用于社交媒体、社区论坛等;PGC 由专业人士或机构生成,内容质量高、专业性强,适用于新闻媒体、专业网站等。 在国内,AIGC 主要在《网络安全法》《数据安全法》《个人信息保护法》的框架下,由《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》《科技伦理审查办法(试行)》共同监管。
2025-03-13
AGI是什么单词缩写
AGI 是“Artificial General Intelligence”的缩写,意思是通用人工智能,指能够像人类一样思考、学习和执行多种任务的人工智能系统。目前 AI 分为 ANI 和 AGI,ANI(artificial narrow intelligence 弱人工智能)得到巨大发展,但 AGI 还没有取得巨大进展。ANI 只可做一件事,如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等,而 AGI 能做任何人类可以做的事。部分人觉得 LLM 具有 AGI 潜力,LeCun 反对。在公众传播层面,AIGC 指用 Stable Diffusion 或 Midjourney 生成图像内容,后来泛指用 AI 生成音乐、图像、视频等内容;LLM 指 NLP 领域的大语言模型,如 ChatGPT;GenAI 是生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了 LLM 和 AIGC。
2025-03-13
transformer
Transformer 是一种深度学习模型,其核心思想是“Attention is all you need”,来源于 2017 年 Google Brain 团队发布的同名论文,主要用于处理序列数据,包括热门的 NLP 任务,完全基于注意力机制,不使用传统的 RNN 或 CNN 计算架构。 其工作流程如下: 1. 输入嵌入:将每个单词映射为一个向量,即单词嵌入。例如“ I ”映射为一个 512 维的向量。 2. 位置编码:由于 Transformer 没有捕获序列顺序的结构,需给每个词位置加上位置编码,使模型知道词语的相对位置。 3. 编码器:输入序列的嵌入向量和位置编码相加后被送入编码器层。编码器由多个相同的层组成,每层有两个核心部分,多头注意力机制捕捉单词间的依赖关系,前馈神经网络对 attention 的结果进行进一步编码。 4. 解码器:编码器的输出被送入解码器层。解码器也是由多个相同层组成,每层除了编码器组件外,还有一个额外的注意力模块,对编码器的输出序列建模依赖关系。 5. 输出嵌入:解码器最后一层的输出被映射为输出单词概率分布。例如生成单词“我”“是”等概率。 6. 生成:基于概率分布,以贪婪或 beam search 等解码策略生成完整的输出序列。 Transformer 模型用途广泛,可以用来翻译文本、写诗、写文章,甚至生成计算机代码。像 AlphaFold 2、GPT3、BERT、T5、Switch、Meena 等强大的自然语言处理(NLP)模型都建立在 Transformer 基础之上。如果想在机器学习,特别是自然语言处理方面与时俱进,至少要对 Transformer 有一定了解。
2025-03-13
有没有使用AI炒股的相关内容
以下是关于使用 AI 炒股的相关内容: 1. Stocked AI 是一个投资服务,提供每日股票推荐。其推荐由机器学习模型生成,使用人工智能预测下一天的股票收盘价。 2. 博主林亦 LYi 的《AI 炒股?我开了一家员工全是 AI 的公司,自动帮我炒股》在某种程度上实现了多 Agent 协作的能力。 3. 有摊位提出“AI+交易:来定制专属于你的私人高级交易顾问吧!”的思路,期望借助 AI 分析行情,提高资金使用效率。 目前 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品较少。一方面高度智能化的 Agent 能力需要打磨,概念落地还有距离;另一方面 AI 和娱乐消费诉求的结合几乎没有,其主要带来的是生产方式变革和效率变革。个人消费者方向,目前只看到“私人助理”场景。
2025-03-13