Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

OpenAI o1、Claude Sonnet 3.7、Gemini 2.0 pro 哪个 AI 搜索能力更强?

Answer

OpenAI o1、Claude Sonnet 3.7 和 Gemini 2.0 pro 在不同方面具有各自的优势,难以简单地比较哪个的搜索能力更强。

OpenAI o1 推理能力强,适合作为架构师或算法顾问。

Claude Sonnet 3.7 擅长长上下文任务,在快速生成代码与网页设计方面表现出色。

Gemini 2.0 pro 长上下文支持较好(2M Tokens),适合代码反编译与混淆代码分析。

具体的搜索能力表现还会受到应用场景和具体任务的影响。

Content generated by AI large model, please carefully verify (powered by aily)

References

宝玉 日报

OpenAI o1:复杂算法与架构设计的首选,推理能力强,适合作为架构师或算法顾问。Claude 3.5/Cursor:快速生成代码与网页设计,Claude擅长长上下文任务,Cursor适合上下文控制较好的IDE开发。v0.dev:网页设计利器,支持设计稿生成网页。Gemini:长上下文支持(2M Tokens),适合代码反编译与混淆代码分析。组合搭配:复杂任务用o1设计,Claude生成代码,其他工具辅助实现网页与单元测试,效率翻倍。?详细分享博客:[https://baoyu.io/blog/ai-assisted-coding-tools](https://baoyu.io/blog/ai-assisted-coding-tools)

非技术人 10 分钟读懂 Deepseek R1|天才模型养成与 AI 超越人类的破晓时刻

就我观察而言,大多数人讨论的DeepSeek,基本指的是它的深度思考版本——DeepSeek R1。DeepSeek R1不同于先前的普通模型(如ChatGPT-4、Claude 3.5 sonnet、豆包、通义等),它与OpenAI现在最先进的模型o1、o3一样,同属于一条技术路线:基于强化学习RL的推理(Reasoning)模型。其标志性表现就是,在回答用户问题前,R1会先进行“自问自答”式的推理思考,凭此提升最终回答的质量。这种“自问自答”,并非简单的自言自语,而是AI在模拟人类的深度思考。从用户初始问题“先有鸡还是先有蛋”出发,AI唤醒解决该问题所需的推理逻辑与知识,对问题进行多步推导,为最终回答提供更加完备的思考准备。这种能力,并非凭空而来。如果把AI比作人类,那么DeepSeek R1的“聪明”,源于其背后独特的“教育方式”。——在许多其他的AI模型还在接受“填鸭式教育”时,DeepSeek R1已经率先进入了“自学成才”的新阶段。

ShowMeAI周刊 No.13 | 上周最有讨论度的9个AI话题:AI教育谷歌扳回一局、阶跃终于摘星辰、大部分人用不起来AI…

??我目前在用哪个LLM模型[@孔某人的低维认知](https://mp.weixin.qq.com/s?__biz=Mzk0MDU2OTk1Ng==&mid=2247484446&idx=1&sn=44fc317ecabfc4ce67c6866109591f54&scene=21#wechat_redirect)API与开发场景:Claude 3.5 Sonnet,o1系列Chat:常规问题用ChatGPT的gpt-4o,复杂问题或设计WorkFlow用Claude写作:在观点调研和改错别字时使用o1-preview开发:在Cursor中使用Claude 3.5 Sonnet 20241022进行代码修改或开发,在Web窗口使用gpt-4o进行技术方案调研AI搜索:PC端使用Google,公众号搜索使用腾讯元宝??My AI Usage these days@Elvis Saraviaclaude-3.5-sonnet:用于大多数创意和写作任务Gemini-1.5-Pro:用于视频相关任务ChatGPT:用于图像分析和Web搜索GPT-4o-mini和Gemini-Flash:用于Agent任务o1-mini:用于推理和知识密集型任务llama-3.1:用于本地LLMMidjourney:用于图像生成Runway:用于视频生成ElevenLabs:用于语音相关内容

Others are asking
trad 如何添加Claude Sonnet 3.7 模型
要在 Trae 中添加 Claude Sonnet 3.7 模型,您可以按照以下步骤操作: 1. 下载 Trae:链接为 https://sourl.co/2DCmmW 。 2. 安装 Trae 后,自动进入 Trae 的客户端。 3. 查看对话框右下角,可以看到三种大模型的选择,其中包括 Claude3.5Sonnet、Claude3.7Sonnet、GPT4o 。 Claude 3.7 Sonnet 是一个混合推理模型,与市面上其他推理模型有所不同。它分为普通模式和扩展(推理)模式,可通过下拉菜单切换。普通模式是升级版的 Claude 3.5 Sonnet,回答迅速流畅;扩展模式适用于数学、物理、编程、复杂分析等场景,会进行思维链展开和推理。但需要注意的是,在 Trae 中切换模式是通过新窗口实现的。
2025-03-17
claude 3.7和deepseek r1比,能力怎么样
Claude 3.7 在多个方面表现出色。相较于 DeepSeek R1,除了数学方面,带有扩展思考模式的 Claude 3.7 在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,拿下最高分。在多项基准测试中,“扩展思考”模式加持下的 Claude 3.7 在数学、物理、指令执行、编程等方面刷新了 SOTA,编码能力暴涨 10%以上,几乎完全碾压 o3mini 和 DeepSeek R1,与 Grok 3 不相上下。宾夕法尼亚大学沃顿商学院的教授 Ethan Mollick 对 Claude 3.7 进行了测试,对其能力既惊叹不已又感到一丝不安。例如,Claude 3.7 能通过自然对话或文档获得可运行的程序,还能对需求进行预判和采用新方法思考,生成超出要求的成果。参考资料:https://www.anthropic.com/news/claude37sonnet https://x.com/alexalbert__/status/1894093648121532546 https://x.com/AnthropicAI/status/1894092430560965029 https://www.oneusefulthing.org/p/anewgenerationofaisclaude37
2025-03-04
claude3.7
Claude 3.7 Sonnet 深夜上线,在 AI 编程领域带来了重大突破。 其文笔在推理能力加持下表现出色,写出的内容更具真人感,剧情逻辑更顺畅。编程能力是其最突出的优势,非推理模型加持下的 Claude 3.5 已能与 o1 抗衡,Claude 3.7 更是远超其他模型。在遵循指令、一般推理、多模态能力和自主编码方面表现优异,加推理后在数学和科学方面进步显著。 让 Claude 3.7 Sonnet 玩宝可梦红这款经典游戏,它展现出很强的 AI 代理能力,成功挑战三个道馆馆主并赢得徽章,相比之前版本有质的飞跃。 此外,还有类似于 Cursor 的 Claude Code 这一 AI 编程工具,可搜索和阅读代码、编辑文件、编写和运行测试、提交并推送代码到 GitHub 及使用命令行工具,其手册详细,限量预览可查看:https://docs.anthropic.com/en/docs/agentsandtools/claudecode/overview 。对于初涉 AI 编程或无代码知识者,建议选择 Trae 或 Cursor 。 AI 圈进化迅速,Claude 3.7 Sonnet 再次拔高模型上限,这是 AI 时代令人兴奋又充满挑战的部分。 作者:卡兹克 投稿或爆料,请联系邮箱:wzglyay@gmail.com
2025-03-03
如何免费使用claude3.7
Claude 3.7 Sonnet 目前已经在 Claude.ai 平台上线,Web、iOS 和 Android 用户皆可免费体验。对于希望构建自定义 AI 解决方案的开发者,可以通过 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 进行访问。目前“扩展思考”模式还没有上线,所有人均可免费使用。此外,tree 接入 Claude 3.7 可免费使用,国内版 Claude 3.7 下周上线。在标准模式和扩展思考模式下,Claude 3.7 Sonnet 的价格与其前代产品相同:3 美元/百万输入 token,15 美元/百万输出 token——这其中包括了思考 token 的费用。
2025-02-28
OpenAI Operator, Anthropic Claude Coder
以下是关于 OpenAI Operator 和 Anthropic Claude Coder 的相关信息: 2025 年 Agent 领域的发展预测: 从对话助手到行动型智能体是 2025 年 Agent 技术的主流发展方向之一。计算机操作能力取得突破,传统大模型更多充当聊天助手,而 2025 年的突破在于让 Agent 直接“动手”操作电脑和网络环境。 Anthropic 在 2024 年底发布的 Claude 3.5 Sonnet 首次引入“Computer Use”能力,让 AI 像人一样通过视觉感知屏幕并操作鼠标键盘,实现了 AI 自主使用电脑的雏形。 OpenAI 在同期推出了代号“Operator”的 Agent 及其核心模型“计算机使用智能体”(CUA),使 GPT4 获得直接与图形界面交互的能力。CUA 通过强化学习将 GPT4 的视觉能力与高级推理相结合,训练 AI 可像人一样点击按钮、填表、滚动页面等。在 OpenAI 的测试中,CUA 在浏览器任务基准 WebArena 和 WebVoyager 上分别达到 38.1%和 87%的成功率,后者已接近人类水平。 其他相关信息: 宝玉日报 1 月 25 日: Deepseek 提示词框架包含四大模块:任务目的(Purpose)、计划规则(Planning Rules)、格式规则(Format Rules)、输出说明(Output)。 Anthropic 的 Claude 可通过屏幕截图获取计算机视觉信息,计算光标移动的像素坐标,并执行点击、滚动等操作。 OpenAI Operator 利用虚拟主机和 Chrome 浏览器,通过 CUA 实现网页实时操作,支持复杂任务导航。 主要的大语言模型: OpenAI 系统包括 3.5 和 4 等,3.5 模型在 11 月启动了当前的 AI 热潮,4.0 模型在春季首次发布,功能更强大。新的变种使用插件连接到互联网和其他应用程序。Code Interpreter 是一个非常强大的 ChatGPT 版本,可以运行 Python 程序。未为 OpenAI 付费只能使用 3.5。微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,连接到互联网。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是 PaLM 2 模型。 Anthropic 发布了 Claude 2,其最值得注意的是有一个非常大的上下文窗口。
2025-04-01
Claude Artifacts是什么
Claude Artifacts 是由 Claude 推出的一项工具。它具有将前端代码直接渲染成网页的功能,在前端代码生成能力方面表现出色。例如,可以借助 Claude 的 Artifact 功能制作海报、思维导图等,用户无需编写代码或使用专业设计软件,仅通过与 Claude 对话并输入提示词,就能生成符合需求的内容。目前关于 Claude Artifacts 的探索文章相对较少,但其具有代码跑通率高、设计美感好等特点,还能实现动态生成的效果。
2025-04-01
怎么写给 Claude 的 prompts
以下是关于如何写给 Claude 的 prompts 的相关内容: 1. 提示简介:提示是您给 Claude 的文本,用于引发相关输出,通常以问题或指示的形式出现。例如,“User|Why is the sky blue? 为什么天空是蓝色的?”,Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。 2. 构建 Prompt:可以用 Lisp 或 Markdown 格式来构建 prompt,让 Claude 根据用户输入的领域和产品(也可自定义产品特点)直接输出情绪营销语句。用 Lisp 这种编程语言更为凝练和简洁,Markdown 格式的效果也一样。对于 GPT 等模型,在卡片生成这步可能需要一些调整,不稳定,最好自定义 html/css 样式来进行强约束。直接打开 Claude 首页,把上述提示词发送即可初始化,然后进行使用。 3. 控制输出格式(JSON 模式):控制 Claude 输出的简单方法之一是说明想要的格式,Claude 可以理解并遵循与格式相关的指示,并格式化输出,如 JSON、XML、HTML、Markdown、CSV 等,甚至自定义格式。例如,如果想让 Claude 以 JSON 格式生成一首俳句,可以使用相应的提示。
2025-03-28
claude教程
以下是关于 Claude 的教程: 1. 提示简介:Claude 经过训练成为一个乐于助人、诚实可靠、无害的助手,习惯于进行对话。您可用常规自然语言请求指示它,指示质量对其输出质量影响大,尤其对于复杂任务。 2. Project 功能: 打造真正的个人 AI 助理。 打开 Claude,在左侧菜单栏点击“Projects”。 点击“Create Project”。 填写项目名称并点击“Create Project”。 在“Project Knowledge”下面,点击“Set custom instructions”,填写系统提示词。建议使用 Claude 3.5 Sonnet,逻辑能力更强。打开聊天窗口输入复盘内容,AI 会给出优化建议。 3. 17 岁高中生写的神级 Prompt:将 Claude 强化成满血 o1,如用 Prompt 把 o1 级别的思维链复刻到 Claude 3.5 里,思考逻辑更详细、更像人。Prompt 名为 Thinking Claude,作者是 17 岁的高中生涂津豪,其 Github 地址为:https://github.com/richards199999/ThinkingClaude/tree/main 。
2025-03-24
claude
以下是关于 Claude 的相关信息: 1. 一位 17 岁的高中生涂津豪写了个名为“Thinking Claude”的神级 Prompt,将 Claude3.5 强化得非常强大。它能把 o1 级别的思维链复刻到 Claude3.5 里,使其思考逻辑更详细、更像人,甚至思考过程都跟 o1 一样,还能展开折叠。用这个 Prompt 强化过的 Claude3.5 智能程度、成功率、像人的程度都大幅提升,群友用其创造了如 flappy bird、德州扑克等。您可以在作者的 Github 上查看完整的 Prompt,地址是:https://github.com/richards199999/ThinkingClaude/tree/main 。 2. 预先填充 Claude 的回答:要预先填充 Claude 的回应,只需在进行 API 请求时在 Assistant 消息中包含所需的初始文本。例如:|Role|Good Prompt| |User|Please extract the name,size,price,and color from this product description and output it within a JSON object.<br>请从此产品描述中提取名称、尺寸、价格和颜色,并在 JSON 对象中输出。<br><br><description>The SmartHome Mini is a compact smart home assistant available in black or white for only$49.99.At just 5 inches wide,it lets you control lights,thermostats,and other connected devices via voice or app—no matter where you place it in your home.This affordable little hub brings convenient handsfree control to your smart devices.</description><br><description>SmartHome Mini 是一款紧凑的智能家居助手,有黑色或白色可选,售价仅为$49.99。仅 5 英寸宽,让您可以通过语音或应用程序控制灯光、恒温器和其他连接设备,无论您将其放在家中的哪个位置。这款价格实惠的小中心为您的智能设备带来了便利的免提控制。| |Assistant助手(预先填充)|{ 。在这个例子中,通过以 Assistant 消息开头,我们限制了 Claude 的输出为所请求的 JSON 模式的其余部分。 3. 要求 Claude 进行重写:有时候 Claude 的回答可能不完全准确或符合要求,在以下情况可以要求重写,如响应接近所需但缺乏具体细节或格式、输出未完全遵循初始提示的约束条件、不确定结果是否准确希望 Claude 双重检查。重写在提示包含多个约束时特别有用,请求重写可以强调 Claude 最初忽略的约束的重要性。
2025-03-24
claude
以下是关于 Claude 的相关信息: 1. 一位 17 岁的高中生涂津豪写了个名为 Thinking Claude 的神级 Prompt,将 o1 级别的思维链复刻到了 Claude3.5 里,使其智能程度、成功率、像人的程度大幅提升。可以在作者的 Github 上查看完整 Prompt,地址是:https://github.com/richards199999/ThinkingClaude/tree/main 。 2. 预先填充 Claude 的回答:要预先填充 Claude 的回应,只需在进行 API 请求时在 Assistant 消息中包含所需的初始文本。例如:|Role|Good Prompt| |User|Please extract the name,size,price,and color from this product description and output it within a JSON object.<br>请从此产品描述中提取名称、尺寸、价格和颜色,并在 JSON 对象中输出。<br><br><description>The SmartHome Mini is a compact smart home assistant available in black or white for only$49.99.At just 5 inches wide,it lets you control lights,thermostats,and other connected devices via voice or app—no matter where you place it in your home.This affordable little hub brings convenient handsfree control to your smart devices.</description><br><description>SmartHome Mini 是一款紧凑的智能家居助手,有黑色或白色可选,售价仅为$49.99。仅 5 英寸宽,让您可以通过语音或应用程序控制灯光、恒温器和其他连接设备,无论您将其放在家中的哪个位置。这款价格实惠的小中心为您的智能设备带来了便利的免提控制。| |Assistant助手(预先填充)|{ 。 3. 要求 Claude 进行重写:有时候 Claude 的回答可能不完全准确或符合要求,在以下情况可要求重写,如响应接近所需但缺乏细节或格式、输出未完全遵循初始提示的约束条件、不确定结果是否准确希望双重检查。重写在提示包含多个约束时特别有用,请求重写可强调 Claude 最初忽略的约束的重要性。
2025-03-19
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
Gemini 2.0 Flash Experimental怎么使用?
使用 Gemini 2.0 Flash Experimental 可以通过以下步骤: 1. 登录 Google AI studio,链接为:https://aistudio.google.com/prompts/new_chat 。 2. 在 Model 中选择 PREVIEW Gemini 2.0 Flash Experimental(new)。 3. 确认选择「Images and text」。 如果您想通过 Google AI Studio 来使用,具体步骤如下: 1. 打开浏览器访问 https://aistudio.google.com/prompts/new_chat ,或者下载 Gemini 应用(Android 或 iOS)。 2. 登录您的 Google 账户。 3. 在 model 选项处选择 Gemini 2.0 Flash Experimental 模型即可。 使用时,编辑图片超简单,只需 3 步: 1. 上传图片:挑选一张您想要修改的图片上传。 2. 输入指令:在对话框里用简单的语言描述您的需求,例如“把衣服改成蓝色”或者“给狗狗加个墨镜”。 3. 等待魔法:点击运行按钮,AI 会马上处理,几秒钟后您就能看到新图片。如果结果不太满意,可以修改指令再次尝试,指令越清晰效果越好,比如“把天空变晴朗,加点云朵”。 需要注意的是,这个功能还在进一步开发中,未来可能会在官网上开放。
2025-03-15
Gemini  2.0 Flash Experimenta
Google 发布的推理模型 Gemini 2.0 Flash Experimental 具有多模态理解、推理、编码等最佳用途,其亮点功能包括展示模型的思维推理过程,能解决复杂问题,应对代码和数学难题。可在 AI Studio 免费体验,据称其低版本已迅速超越 OpenAI 的 o1 模型,Pro 版本尚未发布。相关链接: 。 Gemini 2.0 Flash 现在不仅能通过聊天生成图像,还能通过聊天对话方式任意编辑图像的局部或者全部而不改变图像其他部分。相关案例整理: https://x.com/linaqruf_/status/1899977818563633466?s=46 https://x.com/robertriachi/status/1899854394751070573?s=46 https://x.com/theomediaai/status/1899871111338230110?s=46 https://x.com/techn0_sap1en/status/1899890369044897938?s=46 https://x.com/ai_for_success/status/1899842790072406214?s=46 https://x.com/linusekenstam/status/1899946807565717819?s=46 Gemini 2.0 Flash Experimental 实测设计一个玩具的从 0 到 1 的搭建过程,虽然中间很多细节对不上,但真的兼顾了上下示意图,并且连贯了起来。此外,还有关于一致性测试、视觉陷阱检测等方面的应用,如多图关联创作(隐藏评分点:光影一致性/透视连续性/元素融合度)、逻辑矛盾识别(观察是否提示环境矛盾)。在不同领域也有各种应用,如设计游戏、生成恐怖悬疑小说、装修毛坯房、制造火箭、教人画画等。操作时,右侧选择「Gemini 2.0 Flash Experimenta」并选中模型名。
2025-03-14
flowith 2.0与refly的区别具体在哪里?
Flowith 2.0 与 Refly 的区别主要体现在以下方面: 功能定位:Refly 是一款国产应用,是全站式的文本创作工具,集成了“知识库+自由画布+AI 搜索+内容编辑”等功能,覆盖主题搜索、思维拓展、在线文档、文本优化等完整创作链条的每一个环节。Flowith 2.0 是一款出海应用,有成为订阅制 AI 知识社区的野心。 知识库:Flowith 2.0 的知识库允许自行上传制作并发布,还可以自由添加(或购买)他人已经发布的知识库,这是其作为 AI 付费订阅知识社区的基本雏形,而 Refly 没有此功能。 内容编辑器:Flowith 2.0 的内容编辑器有 Markdown、图片编辑器、代码编辑器、实时语音聊天等几种不同的模式,Refly 未提及有此多样的模式。 交互设计:Flowith 2.0 继承并优化了 1.0 版本的交互设计,尤其是 Agent 功能设计(包括 Project 功能、Oracle 模式、Agent Community 等)得到了强化,以及依旧流畅酷炫的对话模式(包括插件模式、比较模式、图片/视频生成模式等),Refly 未提及相关内容。 团队协作:Flowith 2.0 支持团队协作,允许邀请外部协作者评论、共同编辑当前 Flow,Refly 未提及此功能。
2025-02-13
Software 2.0里面讲了什么内容
Software 2.0 主要包含以下内容: 1. 神经网络不仅是机器学习工具箱中的工具之一,而是代表着软件开发的根本性转变,即软件 2.0。 2. 软件 1.0 由计算机语言开发,由程序员编写明确指令;软件 2.0 由更抽象、人类难理解的语言(如神经网络中的权重)开发,无法直接编写权重,而是为程序行为指定目标并写好程序骨架,利用计算资源在程序空间中搜索可用程序。 3. 对于神经网络,将搜索限制在程序空间的连续子集上,使用反向传播和随机梯度下降方法进行搜索。软件 2.0 的源码通常由定义目标行为的数据集和给定大致结构的神经网络结构组成,训练神经网络就是将数据集编译成最终的神经网络。 4. 如今,神经网络的结构及训练系统日益标准化,大部分“软件开发”工作变成组织、增加、调整和清理带标签的数据集,开发团队分为负责编辑和扩大数据集的数据标记员,以及维护训练相关基础设施和接口的人员。 5. 对于很多真实世界的问题,采集数据比显式写程序更容易,因此工业界正发生大量代码从软件 1.0 向软件 2.0 的重大转变。
2025-02-12
ideogram 2.0 如何做中文海报?
Ideogram 2.0 做中文海报的方法如下: 1. 特点: 是目前 AI 设计能力最强,文字生成效果最好且最准确(仅限英文),图像生成效果优于 Flux & Dalle·3。 增强了图像中精确文本的渲染能力,适用于海报、徽标、封面、贺卡、T 恤设计等。 提供 5 种不同风格,包括通用、写实、设计、3D 和动漫(Auto 是随机选择一种)。 引入“融合 Remix”、“描述 describe、“放大 Upscale"、“提示词增强 Magic Prompt 功能、“调色板 Color palette”。 提供 API 接口,方便企业集成高级图像生成功能。 支持手机端,目前上线 iOS 应用程序。 目前可免费使用,每天最多 10 次生成机会(40 张图片)。 2. 基本操作界面: 生成风格选择(Auto):相同 prompt 会有不同风格的生成结果。 提示增强 Magic Prompt:增强输入的初始 prompt,提高图像多样性和丰富性,或将初始 prompt 翻译为英文。 尺寸选择 Aspect ratio:可以自由选择生成图片的尺寸,自定义推荐调整比例 Aspect ratio,因为像素尺寸数值 Dimensions 很多情况下会提示失败。 可见性 Visibility:公共模式 Public 指个人生成的图片是否会分享到公共空间被其他用户看到,如果是用于工作需求推荐选择私人模式 Private。 模型选择 Model:推荐最新的 2.0 模型。 调色板 Color palette:可以自动,或使用提供的配色,或根据自己的需求设置相应的配色,生成图像的配色会匹配设置的配色。 渲染质量 Rendering:跟生成的质量相关,一般默认就行,个人使用感觉区别不是特别大,包括快速(约 5 秒)、默认(约 12 秒)、质量(约 20 秒)三种模式。 种子值 Seed:尽可能维持相同的图像效果,但生成结果略有调整。 负面提示词 Negative prompt:不希望出现的元素,可以通过填写到这里进行规避。 3. 图像风格控制:包括现实、设计、3D 和动漫。 4. 调色板控制:可以生成符合您特定调色板的图像。 您可以根据以上内容和官方教程,尝试使用 Ideogram 2.0 制作中文海报。
2024-10-27
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20