Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

通义千问和智谱清言对比

Answer

以下是通义千问和智谱清言的对比情况:

在对结构化 prompt 的测试中:

  • 输入同样的 prompt 后,智谱清言的改写效果不错,能够理解 prompt,输出内容感觉良好,且认识到结构化 prompt 的重要性以及需要不断迭代优化。
  • 通义千问的输入效果不错,能够一次输出,但输出的内容要差一些,需要提高。

在 Step-back prompting 评测中:

  • 智谱清言的综合评分为 3 分,表现中规中矩。
  • 通义千问的综合评分为 3.125 分,表现还算不错,只要内容上再提高一些,体验感和专业性会更好。

在小七姐的小样本测评中:

  • 对于复杂提示词理解和执行的第一轮任务中,智谱清言首次回应初始化执行正常,但在生成内容时推理错误,且未回应特定问题,对于提示词中要求的逐步推理过程,可能因模型对已知问题答案生成的优先级高于用户设定的生成逻辑而未按步骤执行。
  • 未提及通义千问在该轮任务中的具体表现。
Content generated by AI large model, please carefully verify (powered by aily)

References

各大模型对结构化prompt的测试和反馈

输入到智谱清言后,输出如下:问题和文心一言一样,并没有问我喜欢哪三个,所以决定先改写,再看输出效果:这次改写的效果还不错,能够理解prompt,输出的内容感觉不错。这里我最大的体会就是,结构化prompt非常重要,先要从结构化开始。第二就是要不断迭代,根据输出结果不断优化。[heading3]Kimi chat[content]同样的prompt输入到Kimi chat后,输出效果如下:继续改写输出效果如下:Kimi chat的表现令我很惊喜,无论是第一次的prompt,还是改写后的prompt,都能准确理解,不需要再费时改写,体验感比较好,赞一个。[heading3]讯飞星火[content]把同样的prompt输入到讯飞星火后,输出如下:同样的问题也是并没有提示我,所以还得把改写后的prompt输入,看一下效果:再次输入改写后的prompt,效果还不错,也证明改写的prompt不错,整体上感觉很好。[heading3]Copilot[content]输入到从pilot后,输出效果如下:这次copilot没有让我失望,总算扳回一局,那接下来把改写后的prompt输入后,看一下效果如何:注意:copilot的回答出现了英文,所以我在prompt中加了:请全部使用中文回答,不能出现英文,所以它的回答直接翻译成中文,输出的效果还不错,不过依然要费一点功夫,体验感有待提升。[heading3]通义千问[content]把同样的prompt输入到讯飞星火后,输出如下:把改写后的prompt输入后,效果如下:通义千问的输入效果不错,能够一次输出,但输出的内容要差一些,需要提高。

各大模型对结构化prompt的测试和反馈

| |输出格式|专业性|完整性|实用性|综合评分|<br>|-|-|-|-|-|-|<br>|ChatGPT3.5|3.5|2|2|1.5|2.25|<br>|Bard|4|4|4|4|4|<br>|Kimi chat|4.5|3.5|3|3.5|3.625|<br>|智谱清言|4|3|2|3|3|<br>|文心一言|3|2|2|2|2.25|<br>|讯飞星火|2.5|3|3|3.5|3|<br>|Copilot|1.5|3|2|3|2.375|<br>|通义千问|3.5|3|3|3|3.125|这次评测,bard综合表现更加稳定和平衡,体验效果最好的,其次是Kimi chat表现也是令我眼前一亮,脱颖而出。智谱清言的表现也不错,整体上表现比较中规中矩。ChatGPT3.5的表现令我有点失望,可能是版本有点低的原因,升级到4.0后再看看。文心一言整体表现一般,波澜不惊。而Copilot表现有点失望,可能希望比较大的原因吧,再看后续的升级迭代吧。通义千问的表现还算不错,只要内容上再提高一些,体验感和专业性会更好一些,期待吧。

小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评

首次回应:初始化执行正常,并对欢迎语加以完善和补充。生成内容:推理错误,且没有回应问题中的“应当采用何种策略”这个问题。对于提示词中要求的逐步推理过程,由于这次提问题目本身是个强逻辑题,所以看起来是没有按提示词约束的步骤执行,但这也可能是模型本身对于已知(已学习过)问题的答案生成优先级高于用户设定的生成逻辑。[heading6]文心一言4.0[content]首次回应:虽然也按照提示词输出了欢迎语“请描述您希望我们分析的问题或情境”,但后面又额外的输出了一些对于工作流程的复述,而这一点已经在提示中明确约束过了:“4.仅做出推理,不要描述你的任何设定,也不要告知用户你的工作流程”,所以这里算是约束失效的。生成内容:推理错误,且没有回应问题中的“应当采用何种策略”这个问题。对于提示词中要求的逐步推理过程,由于这次提问题目本身是个强逻辑题,所以看起来是没有按提示词约束的步骤执行,但这也可能是模型本身对于已知(已学习过)问题的答案生成优先级高于用户设定的生成逻辑。对比智谱清言来看,前者属于很努力的分析了很多步骤但依然是错误的,后者属于言简意赅的分析了结果是错误的。

Others are asking
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
阶跃星辰、通义千问、Gemini三个视频理解模型哪个收费更便宜
以下是阶跃星辰、通义千问、Gemini 三个视频理解模型的收费情况: 阶跃星辰:输入价格为 0.005~0.015 元/千 tokens,输出价格为 0.02~0.07 元/千 tokens。 通义千问:Qwenvlplus 模型调用价格为 0.008 元/千 tokens,训练价格为 0.03 元/千 tokens。 Gemini 未提及收费信息。 综上,从已有的信息来看,通义千问的收费相对可能更便宜,但具体还需根据您的使用情况和需求来判断。
2025-04-10
通义千问的视频理解模型怎么使用
通义千问的 Qwen2.5VL 视频理解模型具有以下特点和使用方式: 版本:推出 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作,如给指定朋友送祝福、电脑修图、手机订票等。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai
2025-04-09
通义千问发展历程
通义千问是阿里云推出的大语言模型。于 2023 年 4 月 11 日在阿里云峰会上正式发布 1.0 版本。9 月 13 日,通义千问大模型首批通过备案。10 月 31 日,阿里云正式发布千亿级参数大模型通义千问 2.0,8 大行业模型同步上线。9 月,通义千问 2.5 系列全家桶开源。
2025-03-20
阿里的千问大模型在行业内处于一个什么样的水平
阿里的通义千问大模型在行业内处于领先水平。 通义千问 2.5 正式发布并开源 1100 亿参数模型,在多模态和专有能力模型方面影响力强大,始终坚持开源路线,已推出多款开源模型,受到开发者和生态伙伴的热情支持。百炼平台也升级支持企业 RAG 链路,提供更灵活的企业级检索增强服务。通义灵码推出企业版,满足企业定制化需求,已在多个领域落地应用。 Qwen2.5Max 基于 SFT 和 RLHF 策略训练,在多项基准如 Arena Hard、LiveBench、LiveCodeBench、GPQADiamond 上超越 DeepSeek V3,引发社区关注。支持官方 Chat、API 接口、Hugging Face Demo 等多种方式,展示其顶尖性能与灵活应用场景。 Qwen2.5VL 是新一代视觉语言模型,可解析 1 小时以上视频内容并秒级定位事件,识别从金融文档到通用物体,动态适配高分辨率图像。具备复杂任务执行能力,覆盖更多实际场景如票据解析、商业分析等。 10 月 31 日,阿里云正式发布千亿级参数大模型通义千问 2.0,8 大行业模型同步上线。
2025-03-14
通义千问最新模型
通义千问最新模型情况如下: 发布了一个模型并开源了两个模型。 Qwen2.5Max:全新升级发布,比肩 Claude3.5Sonnet,几乎全面超越 GPT4o、DeepSeekV3 及 Llama3.1405B。是阿里云通义团队对 MoE 模型的最新探索成果,预训练数据超过 20 万亿 tokens。在多项公开主流模型评测基准上录得高分,开发者可在 Qwen Chat(https://chat.qwenlm.ai/)平台免费体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型 API 服务。 Qwen2.5VL:全新视觉模型实现重大突破,增强物体识别与场景理解,支持文本、图表、布局分析,可处理长达 1 小时视频内容,具备设备操作的 Agent 能力。 Qwen2.51M:推出 7B、14B 两个尺寸,在处理长文本任务中稳定超越 GPT4omini,同时开源推理框架,在处理百万级别长文本输入时可实现近 7 倍的提速,首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中,7B 模型出现少量错误。在更复杂的长上下文理解任务中,Qwen2.51M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本,Qwen2.514BInstruct1M 模型不仅击败了 Qwen2.5Turbo,还在多个数据集上稳定超越 GPT4omini。
2025-02-26
智谱清言
智谱清言是智谱 AI 和清华大学推出的大模型产品,其基础模型为 ChatGLM 大模型。2023 年 10 月 27 日,智谱 AI 于 2023 中国计算机大会(CNCC)上推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品。 模型特点: 工具使用排名国内第一。 在计算、逻辑推理、传统安全能力上排名国内前三。 更擅长专业能力,但代码能力还有优化空间。 知识百科与其他第一梯队模型相比稍显不足。综合来看,是很有竞争力的大模型。 适合应用: 场景广泛,根据 SuperCLUE 测评结果,优先推进在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景。 在较复杂推理应用上效果不错。 广告文案、文学写作方面也是很好的选择。
2025-03-14
智谱
智谱 AI 相关信息如下: 2024 年 10 月 AI 行业大事记中,智谱开源了文生图模型 CogView3Plus3B。 智谱 AI 开源的语言模型列表(Chat 模型): ChatGLM26B32k:第二代 ChatGLM 长上下文对话模型,在 ChatGLM26B 的基础上进一步强化了对长文本的理解能力,能处理最多 32K 长度的上下文。 ChatGLM26B32kint4:ChatGLM26B32K 的 int4 版本。 ChatGLM6B:第一代 ChatGLM 对话模型,支持中英双语,基于 General Language Model架构,具有 62 亿参数。 ChatGLM26B:第二代 ChatGLM 对话模型,相比一代模型性能更强,基座模型的上下文长度从 2k 扩展到 32k,在对话阶段使用 8K 的上下文长度训练,推理速度相比初代提升 42%。 ChatGLM26Bint4:ChatGLM26B 的 int4 量化版本,具备最小 5.1GB 显存即可运行,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。
2025-02-17
智谱清言
智谱清言是智谱 AI 和清华大学推出的大模型产品,其基础模型为 ChatGLM 大模型。2023 年 10 月 27 日,智谱 AI 于 2023 中国计算机大会(CNCC)上推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品。 模型特点: 工具使用排名国内第一。 在计算、逻辑推理、传统安全能力上排名国内前三。 更擅长专业能力,但代码能力有优化空间,知识百科与其他第一梯队模型相比稍显不足。综合来看,是很有竞争力的大模型。 适合应用: 场景广泛,可优先推进在 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景。 在较复杂推理应用上效果不错。 广告文案、文学写作方面也是很好的选择。 在对结构化 prompt 的测试和反馈中,输入智谱清言后,问题和文心一言一样,需先改写再看输出效果。改写后效果不错,能理解 prompt,输出内容感觉良好。这里最大的体会是结构化 prompt 非常重要,要从结构化开始,且要不断迭代,根据输出结果不断优化。
2025-01-20
智谱AI插件在哪儿调用
智谱 AI 插件的调用方式如下: 针对智谱,重复类似操作,调用的是 https://chatglm.cn/chatglm/backendapi/v1/conversation/recommendation/list 接口。这里只用到了 conversation_id 一个字段,用的是 GET 请求。通过此接口返回问题,参数用的是整轮对话窗口的唯一 Id:66c01d81667a2ddb444ff878 。 打开飞书多维表格,新增列时,您可以选择字段捷径,在字段捷径的 AI 中心,找到智谱 AI 的字段插件。智谱 AI 近期发布了 3 个飞书多维表格的字段插件:AI 内容生成、AI 视频生成和 AI 数据分析。 在微信超级 AI 知识助手教学(上)—智谱共学营智能纪要中,有智谱大语言模型的使用与功能介绍,包括角色扮演模型设置、变量插入方法、插件调用情况等。还提到了智浦轻颜的功能与应用,如文章总结功能、视频生成功能、画图功能等,以及多维表格相关内容。
2025-01-02
智谱AI插件在哪儿
智谱 AI 插件可在飞书多维表格中找到。具体操作如下: 1. 打开飞书多维表格,新增列时,选择字段捷径。 2. 在字段捷径的 AI 中心,就能找到智谱 AI 的字段插件,包括 AI 内容生成、AI 视频生成和 AI 数据分析插件。 智谱 AI 的 3 个字段插件均免费,您可以尝试将其运用在工作中。同时,若想基于 GLM4Flash 开发更多免费插件,可参考。
2025-01-02
COZE 和智谱AI的优缺点对比
COZE 的优点: 1. 逼真且有沉浸感:通过图片和文字描述模拟急诊室的真实场景,用户可体验到紧张真实的医疗环境。可进一步增加场景细节,如急诊室的声音效果,增强沉浸感。 2. 互动性强:设置多个决策点,用户需做出选择,提高用户参与感和学习效果。可引入更多分支场景,根据用户不同选择生成不同结局,提高互动的深度和多样性。 3. 情感共鸣:通过详细的病人背景故事,用户能更好理解患者处境,增强同理心。可增加更多病人案例,覆盖不同病情和背景,使情感共鸣更丰富多样。 4. 延续字节风格,能自己做闭环,可在工作流基础上用用户界面包装成产品发布。 COZE 的缺点:商业化探索尚未铺开,用户来源不明确。目前没有明确信息表明其是否开源,社区参与和开源协作程度可能不如 Dify。 智谱 AI 的优点: 目前信息中未明确提及智谱 AI 的具体优点。 智谱 AI 的缺点: 目前信息中未明确提及智谱 AI 的具体缺点。 两者的对比: 1. 开源性:Dify 是开源的,允许开发者自由访问和修改代码;Coze 目前没有明确信息表明其是否开源。 2. 功能和定制能力:Dify 提供直观界面,结合多种功能,支持通过可视化编排基于任何 LLM 部署 API 和服务;Coze 提供丰富插件能力和高效搭建效率,支持发布到多个平台作为 Bot 能力使用。 3. 社区和支持:Dify 作为开源项目有活跃社区,开发者可参与共创共建;Coze 可能更多依赖官方更新和支持,社区参与和开源协作程度可能不如 Dify。
2024-12-31
如何登录智谱清言
智谱清言的登录方式如下: AutoGLM 目前处于内测阶段,申请入口在智谱清言 APP 中,直接跟 AutoGLM 内测申请小助手对话提交申请即可。目前只能在安卓设备上使用,iOS 很长时间内都不会支持。因为数据的获取和操作是通过安卓的无障碍权限来控制的,所以登录后的第一件事是引导开启无障碍权限和悬浮球权限,否则无法继续体验。权限授权正常后会进入首页。 对于智谱清流助手接入个人微信,服务器环境部署时,输入“nohup python3 app.py & tail f nohup.out”,最下方会出现一个二维码,使用想要做机器人的微信扫码登录即可。登录成功后,给微信发送消息能看到机器人正常回复。如果想为 AI 赋予功能或人设,可在智谱清流里更改。此后对文件内代码做任何更改,都需重新打印登陆二维码,在“文件”的【终端】里输入“nohup python3 app.py & tail f nohup.out”重新扫码登录。如果没有手机登录,可以使用夜神模拟器模拟手机登录。报错“wxsid”是因为微信未实名,实名即可。制作完成后,不要急着加好友,24 小时内会掉线一次,重新登录即可。
2024-12-03
智谱清言,kimi,讯飞星火,在文字处理跟逻辑思维方面,谁更胜一筹
在文字处理和逻辑思维方面,智谱清言、Kimi 和讯飞星火各有特点: Kimi: 优势:具有超长上下文能力,最初支持 20 万字的上下文,现已提升到 200 万字,对于处理长文本或大量信息的任务有巨大优势,适合从事文案工作,特别是需要处理大量文字或文件的工作。 不足:在文字生成和语义理解、文字生成质量方面的能力可能不如国内其它产品好,且不支持用户自定义智能体。 智谱清言: 优势:背后的技术源自清华大学研发团队的科研成果转化,模型质量出色。在产品设计方面以 ChatGPT 为对标,努力打造类似的用户体验。是国内首批开放智能体应用的公司之一,在逻辑推理和处理复杂提示词方面表现出明显优势,在处理需要深度思考和分析的任务时表现出色。 不足:暂未提及。 讯飞星火:在结构化 prompt 测试中,对于同样的 prompt,最初的输出可能存在问题,但改写后的 prompt 效果不错。 综合来看,它们在不同方面各有优劣,具体谁更胜一筹取决于您的具体需求和使用场景。
2024-11-17
智谱清言,kimi,讯飞星火,在文字处理跟逻辑思维方面,谁更胜一筹
在文字处理和逻辑思维方面,智谱清言、Kimi 和讯飞星火各有特点: Kimi: 优势:具有超长上下文能力,最初支持 20 万字的上下文,现已提升到 200 万字,对于处理长文本或大量信息的任务有巨大优势,适合从事文案工作,特别是需要处理大量文字或文件的工作。 不足:在文字生成和语义理解、文字生成质量方面的能力可能不如国内其它产品好,且不支持用户自定义智能体。 智谱清言: 优势:背后的技术源自清华大学研发团队的科研成果转化,模型质量出色。在产品设计方面以 ChatGPT 为对标,努力打造类似的用户体验。是国内首批开放智能体应用的公司之一,在逻辑推理和处理复杂提示词方面表现出明显优势,在处理需要深度思考和分析的任务时表现出色。 不足:暂未提及。 讯飞星火:在结构化 prompt 测试中,对于同样的 prompt,最初的输出可能存在问题,但改写后的 prompt 效果不错。 综合来看,它们在不同方面各有优劣,具体谁更胜一筹取决于您的具体需求和使用场景。
2024-11-17
智谱清言主要用于什么
智谱清言是智谱 AI 和清华大学推出的大模型产品,基础模型为 ChatGLM 大模型。其具有以下特点和应用场景: 特点: 在工具使用排名国内第一。 在计算、逻辑推理、传统安全能力上排名国内前三。 更擅长专业能力,但在代码能力上还有一定优化空间,知识百科与其他第一梯队模型相比稍显不足。 应用场景: 可应用的场景相对广泛。 根据 SuperCLUE 测评结果,优先推进在 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景。 在较复杂推理应用上的效果会比较不错。 广告文案、文学写作方面也是一个很好的选择。 此外,智谱清言在产品设计方面以 ChatGPT 为对标,努力打造类似的用户体验,是国内首批开放智能体应用的 AI 公司之一,在逻辑推理和处理复杂提示词方面表现出了明显的优势。AutoGLM 目前还处于内测阶段,申请入口在智谱清言 APP 中,目前只能在安卓设备上使用,需要开启无障碍权限和悬浮球权限。
2024-11-05
通义 提示词 教程
以下是关于通义提示词的相关教程: 1. 小七姐的 Prompt 喂饭级系列教程小白学习指南(一): 提示词的理解:如果您是低年级学生看不懂英文问题,可让 GPT 为您翻译和解释,并让其举例帮助理解。 应用方法:对于没看懂的句子,都可以通过提示词让 GPT 换种说法解释和举例。 自测方法:点击链接查看对话原文,顶部的问题可复制作为 prompt 自行提问。 下一节将带来 prompt 小白系列课程(二)如何开始练习有效提问。 2. 不懂代码,也能 3 小时打造并上架一款 AI 插件: 初版提示词:如果不了解如何从 0 1 编写词生卡 Prompt,请阅读前作,这套提示词在后续测试中,在多种模型中都能保持较高成功率和稳定的预期效果。 3. SD 新手入门图文教程: 提示词语法:根据想画的内容写提示词,多个提示词之间用英文半角符号。一般概念性、大范围、风格化的关键词写在前,叙述画面内容的其次,描述细节的最后。每个词语在模型中的自带权重可能不同,特异性、具体且措辞不抽象的关键词效果更好。可使用括号人工修改提示词的权重。
2025-04-11
通义的日活是多少?
根据提供的信息,阿里通义在 11 月的活跃用户为 147 万人,WEB 月活为 141 万人,APP 月活为 355 万人,全网月活为 496 万人。在 9 月的活跃用户为 529 万人。
2025-03-28