Chat with Wiki - WayToAGI

Navigate to WaytoAGI Wiki →

Home/All Questions

以下是为您整理的关于 AI 阅读器的相关信息： 360AI 浏览器作为“阅读器”，早期以新闻资讯为主，如今随着专业长文和视频增加，用户浏览消耗时间逐渐增加，浏览提效需求迫切。功能 1：看长视频，敲黑板划重点。能帮用户观看 B 站的字幕视频，短短几秒总结概要生成脑图，告知重点和高潮剧情，还能对英文字幕进行翻译，通过 AI 助手对话就视频内容进行追问和扩展提问。功能 2：阅读国内外长论文和著作，自动翻译自动提炼，3 分钟获取要点。支持 360k 长文本阅读，以《三体》为例，可呈现完整故事框架并生成思维导图。官网地址：ai.se.360.cn 智谱●智谱清流专为企业 AI 应用落地打造的 AI 智能体开发平台，提供 Agents、Workflow、知识管理、批量效果调优等能力，支持 API、SDK、URL 三种集成方式。网址：https://bigmodel.cn/agent 会读 ReadFlow X 知我 AI 会读 ReadFlow 是一款 AI 阅读工具，核心功能是通过微信对话发送文章链接，直接生成摘要，后续增加了小报、归档、标签等新功能。会读用户已迁移至同类型产品知我 AI。知我 AI 网址：https://knowme.xiaoduoai.com ReadAgent 由 Google 开发的阅读代理，模仿人类阅读方式处理长文本，采用忘记具体信息但保留要点的策略提高理解效率。网址：https://readagent.github.io

教我工作流的底层逻辑跟如何入门学习工作流

工作流的底层逻辑及入门学习方法如下：工作流通常由多个节点构成，节点是其基本单元，本质上是包含输入和输出的函数。常见的节点类型包括： 1. LLM（大语言模型）：使用输入参数和提示词生成处理结果。 2. Code（代码）：通过 IDE 编写代码处理输入参数，并返回输出值。 3. Knowledage（知识库）：根据输入参数从关联知识库中召回数据，并返回。 4. Condition（条件判断）：ifelse 逻辑节点，用于设计工作流内的分支流程，根据设置条件运行相应的分支。 5. Variable（获取变量）：从 Bot 中获取变量作为参数在工作流中使用。 6. Database（数据库）：在工作流中使用提前配置在 Bot 数据库中的数据。以下是一些入门学习工作流的示例和资源： 1. 对于生成绿幕素材和绿幕素材抠图的工作流，您可以下载工作流文件拖入 ComfyUI 中自动加载，然后对照相关说明进行学习。工作流链接：https://pan.quark.cn/s/01eae57419ce 提取码：KxgB 2. 对于 Glif 图像流制作冰淇淋甜品地标，您可以按照以下步骤学习： 1 分钟交作业：点击网址 https://glif.app/@jianStuart/glifs/cly85fy2i000cqe87zcu72i5l ，选一张主体区分度高且主体为地标的图，上传图片并点击相应按钮，多点几次选一张满意的即可。 5 分钟学习制作：点击顶上的“build”按钮，点击“+”加号，选择“img input”，再点下面的“+”加号，选“image generator”，把提示词放进节点，打开“advanced controls”，修改参数，勾选“Enable input image”并改参数。 3. 对于 Coze 平台的工作流，官方有现成的教程参考：海外参考文档：https://www.coze.com/docs/zh_cn/use_workflow.html 国内参考文档：https://www.coze.cn/docs/guides/use_workflow 国内版本还提供了一些示例，建议跟着实操一遍，如：搜索新闻：https://www.coze.cn/docs/guides/workflow_search_news 使用 LLM 处理问题：https://www.coze.cn/docs/guides/workflow_use_llm 生成随机数：https://www.coze.cn/docs/guides/workflow_use_code 搜索并获取第一个链接的内容：https://www.coze.cn/docs/guides/workflow_get_content 识别用户意图：https://www.coze.cn/docs/guides/workflow_user_intent

以下是关于 prompt 的相关知识： 1. 提示简介：提示是您给 Claude 的文本，用于引发相关输出，通常以问题或指示的形式出现。例如：“User：Why is the sky blue? 为什么天空是蓝色的？”，Claude 回答的文本被称为“响应”，有时也被称为“输出”或“完成”。 2. 改变区域+混音：选择的大小会影响结果。更大的选择为中途机器人提供更多上下文信息，能改善新添加内容的扩展和上下文，但选择太多可能导致新生成的元素混合或替换原始图像的部分。提示应集中于您希望在所选区域中发生的事情，较短且聚焦的提示通常更有效，不应是对话式的。分步进行，如果要更改图像的多个部分，一次只处理一个部分。技术细节：使用 Vary+Remix 模式生成的作业遵循 chaos、fast、iw、no、stylize、relax、style、version、video、weird 等参数。 3. 提示的类型：基本提示：可以是简单的单词、短语或表情符号，中途机器人最适合用简单、简短的句子来描述您想看到的内容，避免长长的请求列表。高级提示：可以包括一个或多个图像 URL、多个文本短语以及一个或多个参数。图像 URL 始终出现在提示的前面，精心编写的提示有助于生成令人惊叹的图像。

MJ和runaway用什么软件代替比较好

以下是一些可以替代 MJ（Midjourney）和 Runway 的软件： Luma 发布的 DIT 视频生成模型 Dream Machine 图生视频表现惊艳，具有电影级效果。出图工具方面，还有 SD（Stable Diffusion）和悠船。MJ 稳定性好、协作性强且有成熟经验参考，但并非所有人都拥有；SD 有独特能力但需本地部署且上手门槛高；悠船对中文支持好、交互友好简单易上手，但管控严格，有很多敏感词不能使用。如果您想了解更多关于这些软件的详细信息或有其他特定需求，请进一步向我提问。

去除外网需要翻墙的AI，国内有什么可以代替的AI

以下是一些国内可替代外网需要翻墙的 AI 产品： 1. Kimi 智能助手：是 ChatGPT 的国产平替，实际上手体验好，适合新手入门学习和体验 AI。不用科学上网、不用付费、支持实时联网。是国内最早支持 20 万字无损上下文的 AI，对长文理解做得较好。能一次搜索几十个数据来源，无广告，能定向指定搜索源（如小红书、学术搜索）。 PC 端：移动端（Android/ios）： 2. 302.ai：如果不想折腾，尤其推荐国内用户使用。 3. XiaoHu.AI：适合编程小白，对新手友好。深度理解中国开发场景和技术生态。完全免费，无需翻墙，流畅稳定。具备完整 IDE 功能（代码编写、项目管理、插件管理、源代码管理等）。网址：

我是ai视频入门新手，我该如何从零学习可使用的工具组合与降低工作流程

对于 AI 视频入门新手，从零学习可用的工具组合与降低工作流程，您可以参考以下内容：工具组合方面： Runway：在真实影像方面质感较好，战争片全景镜头处理出色，控件体验感不错，但存在爱变色、光影不稳定的问题。 SVD：在风景片测试中表现较好，其他方面一般。 Pixverse：擅长物体滑行运动。 Pika：在生成人物表情自然的画面方面表现出色，可用于局部重绘。 11labs：用于制作 AI 声音，英文效果较好，但存在声音没有情绪和情感的问题。 MJ：局部重绘功能强大。 ComfyUI：可进行高清放大和细节增强。可灵：图生视频效果质量高且稳定，但贵且慢。 Pika 2.2 版本：在首尾帧过渡上有不错表现。 Pixverse：生成速度最快的视频生成平台。工作流程方面： 1. 分析小说内容：使用如 ChatGPT 等 AI 工具提取关键场景、角色和情节。 2. 生成角色与场景描述：借助如 Stable Diffusion 或 Midjourney 等工具生成视觉描述。 3. 图像生成：使用 AI 图像生成工具创建角色和场景图像。 4. 视频脚本制作：将提取的关键点和生成的图像组合成脚本。 5. AI 声音制作：利用如 11labs 等工具将小说文本转换为语音，添加背景音乐和音效。 6. 视频编辑与合成：使用如剪映等视频编辑软件将图像、音频和文字合成为视频。 7. 后期处理：对生成的视频进行剪辑、添加特效和转场，提高视频质量。 8. 审阅与调整：观看视频，根据需要重新编辑某些场景或调整音频。 9. 输出与分享：完成编辑后，输出最终视频并在所需平台分享。需要注意的是，具体的操作步骤和所需工具可能因项目需求和个人偏好有所不同。同时，AI 工具的可用性和功能可能会随时间变化，建议直接访问工具网址获取最新信息和使用指南。

现在Ai作图用什么？还是以前的Stable Diffusion吗？还是又出现了新的开源软件？

目前在 AI 作图领域，Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型，能够进行文生图和图生图等图像生成任务，其完全开源的特点使其能快速构建强大繁荣的上下游生态。除了 Stable Diffusion，也出现了一些新的相关开源软件和工具，例如：：Stability AI 开源的 AI 图像生成平台。：拥有超过 700 种经过测试的艺术风格，可快速搜索查找各类艺术家，并支持一键复制 Prompt。同时，市面上主流的 AI 绘图软件还有 Midjourney，其优势是操作简单方便，创作内容丰富，但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion，可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。

我是一名平面设计师，我应该如何利用ai工具

以下是一些平面设计师可以利用的 AI 工具及相关介绍：审核规划平面图的 AI 工具： 1. HDAidMaster：云端工具，在建筑、室内和景观设计领域表现出色，搭载自主训练的建筑大模型 ArchiMaster，软件 UI 和设计成果颜值高。 2. Maket.ai：主要面向住宅行业，可根据输入的房间面积需求和土地约束自动生成户型图。 3. ARCHITEChTURES：AI 驱动的三维建筑设计软件，能在住宅设计早期引入标准和规范约束设计结果。 4. Fast AI 人工智能审图平台：形成全自动智能审图流程，将建筑全寿命周期内的信息集成管理。辅助画 CAD 图的 AI 工具： 1. CADtools 12：Adobe Illustrator 插件，添加 92 个绘图和编辑工具。 2. Autodesk Fusion 360：集成 AI 功能的云端 3D CAD/CAM 软件，能创建复杂几何形状和优化设计。 3. nTopology：基于 AI 的设计软件，可创建复杂 CAD 模型，包括拓扑优化等。 4. ParaMatters CogniCAD：基于 AI 的 CAD 软件，能根据输入自动生成 3D 模型。 5. 主流 CAD 软件的生成设计工具：如 Autodesk 系列、SolidWorks 等，可根据设计目标和约束条件自动产生多种方案。 AI 编程整合的应用： 1. 设计工作流自动化：如创建 Photoshop 插件，自动批量处理图片的裁剪、亮度调整、添加水印等操作。 2. 知识管理自动化：开发 Obsidian 插件，自动在笔记间建立链接、整理知识网络和推荐相关资料。需要注意的是，每个工具都有其特定的应用场景和功能，建议您根据自己的具体需求来选择合适的工具。同时，这些工具通常需要一定的相关知识和技能才能有效使用。

有哪些效果好的开源OCR模型值得推荐

以下是一些效果较好的开源 OCR 模型推荐： 1. Mistral OCR：当前最强的 OCR 模型，具有多语言支持，超越 Gemini 2.0 Flash，可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度，免费领取！领取地址： 2. Gemini 2.0 Flash：也是一款 OCR 模型。

OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换为计算机可处理的文本数据的技术。在移动端图片视觉处理中，特别是试卷拍照去除书写笔迹方面，OCR 有着重要的应用。以下是相关的处理方法： 1. 图像预处理：图像去噪：使用去噪算法（如高斯滤波、中值滤波）去除图像中的噪声。图像增强：通过增强算法（如直方图均衡化、对比度增强）提升图像的清晰度和对比度。 2. 图像分割：使用图像分割算法将试卷图像中的书写笔迹和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测：在分割后的图像中，使用文字检测算法（如基于深度学习的文本检测模型）识别出试卷上的文字区域。 4. 文字识别：对检测到的文字区域进行文字识别，将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR 技术。 5. 后处理：根据需求进行后处理，如去除残余的噪点、填补文字区域的空白等。 6. 机器学习模型训练（可选）：如有足够的数据，可以采用机器学习技术训练模型，通过学习样本中的书写笔迹特征来自动去除试卷上的笔迹。 7. 优化算法：对整个处理流程进行优化，提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 8. 移动端集成：将设计好的算法和模型集成到移动应用程序中，以实现试卷拍照去除书写笔迹的功能。可以使用移动端开发框架（如 iOS 的 Core ML、Android 的 TensorFlow Lite）来实现模型的部署和调用。当前最强的 OCR 模型如 Mistral OCR，具有多语言支持，超越 Gemini 2.0 Flash，可在 Le Chat&API 调用。ElevenLabs 赠送 $25 Mistral API 额度，免费领取！在一些项目中，如 0 基础跨界 AI 编程共学零基础手搓 AI 拍立得，也应用了 OCR 识别，对图片进行 OCR 识别以获取图片中的文本信息，并对识别结果进行调整和优化。