Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

当前国内逻辑推理能力最强的大模型是什么

Answer

目前国内逻辑推理能力较强的大模型有以下几种:

  1. Baichuan2-13B-Chat(百川智能):是百川智能自主训练的开源大语言模型。在逻辑推理、知识百科、生成与创作、上下文对话等基础能力上排名 200 亿参数量级国内模型第一,其中逻辑推理能力超过 34B 参数量级的大模型,生成与创作能力超过 72B 参数量级的模型。可应用于小说/广告/公文写作等内容创作场景、智能客服/语音助手以及任务拆解规划等场景,还能部署在教育、医疗、金融等垂直行业中应用,同时可部署在低算力终端处理基础智能任务。
  2. 智谱清言(清华&智谱 AI):是智谱 AI 和清华大学推出的大模型产品,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。可应用于 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景,在较复杂推理应用上的效果也不错,广告文案、文学写作方面也是很好的选择。
  3. 文心一言 4.0-API(百度):在计算、逻辑推理、生成与创作、传统安全这 4 大基础能力上排名国内第一。另外在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三。能力栈较为广泛,可应用于查询搜索知识应用、任务拆解规划 Agent、文案写作以及代码编写及纠错等方面,在科学研究、教育、工业方面的落地能力也值得关注。
Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

简介:Baichuan2-13B-Chat是百川智能自主训练的开源大语言模型。百川智能于6月15日开源Baichuan1、9月6日开源Baichuan2,10月31日发布Baichuan2192K。是中文开源模型的主导力量。模型特点:Baichuan2-13B-Chat在逻辑推理、知识百科、生成与创作、上下文对话等基础能力上排名200亿参数量级国内模型第一,其中逻辑推理能力超过34B参数量级的大模型,生成与创作能力超过72B参数量级的模型,表现不俗。在计算和代码能力上有一定优化空间。综合来看,Baichuan2-13B-Chat在同等量级开源模型中非常有竞争力。适合应用:Baichuan2-13B-Chat可应用的场景相对广泛且可以私有化部署。重点推荐在小说/广告/公文写作等内容创作场景、智能客服/语音助手以及任务拆解规划等场景。另外,Baichuan2-13B-Chat可以部署在教育、医疗、金融等垂直行业中应用,同时可部署在低算力终端处理基础智能任务。

2023年度中文大模型基准测评报告.pdf

简介:智谱清言是智谱AI和清华大学推出的大模型产品,基础模型为ChatGLM大模型。2023年10月27日,智谱AI于2023中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型ChatGLM3及相关系列产品。模型特点:智谱清言在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。总体来看,智谱清言更擅长专业能力,但在代码能力上还有一定优化空间。除此之外,知识百科与其他第一梯队模型相比稍显不足。综合来看,智谱清言是一个很有竞争力的大模型。适合应用:智谱清言可应用的场景相对广泛,根据SuperCLUE测评结果,优先推进在AI智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景。另外在较复杂推理应用上的效果会比较不错。广告文案、文学写作方面也是一个很好的选择。

2023年度中文大模型基准测评报告.pdf

信息安全相关的在线课程和讲座[blo优秀模型:文心一言4.0-API(百度)简介:文心一言(英文名:ERNIE Bo t)是百度全新一代知识增强大语言模型。于2023年3月16日正式发布,已进行多个版本迭代,10月17日发布V4.0版本。据百度官方介绍,文心一言目前已有7000万用户。模型特点:文心一言4.0在计算、逻辑推理、生成与创作、传统安全这4大基础能力上排名国内第一。另外在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三。文心一言4.0各项能力上表现非常均衡且绝大部分能力有很高的水平,综合来看是国内非常有竞争力的大模型。适合应用:文心一言4.0的能力栈较为广泛,可应用的场景较多。基于在SuperCLUE测评上的表现,重点推荐在查询搜索知识应用、任务拆解规划Agent、文案写作以及代码编写及纠错等方面的应用。另外文心一言4.0由于在逻辑推理方面的不俗表现,可以重点关注在科学研究、教育、工业方面的落地能力。

Others are asking
介绍一下python实现的开源逻辑推理库
Python中有几个开源库可用于逻辑推理,它们可以帮助开发者在应用程序中实现逻辑推理功能。以下是一些流行的Python逻辑推理库: 1. SymPy: SymPy是一个用于符号数学的Python库,它可以用来执行逻辑运算、符号积分、方程求解等。 它提供了丰富的数学功能,包括逻辑推理和符号推理工具。 2. PyDatalog: PyDatalog是一个Python库,它将逻辑编程和Datalog语言的功能带入Python。 它允许用户编写逻辑规则,并使用这些规则来推理新的事实。 3. Z3: Z3是一个高性能的定理证明器,由Microsoft Research开发。 它提供了Python API,可用于构建逻辑推理应用程序,特别是在形式验证和安全协议分析中。 4. Logilab's Aletheia: Aletheia是一个基于逻辑的代码评估工具,它可以分析Python代码并提供逻辑上的反馈。 它主要用于静态代码分析,帮助开发者识别潜在的错误和代码质量问题。 5. Pyke: Pyke是一个简单的基于知识的推理引擎,它允许开发者定义规则并根据这些规则进行推理。 它适用于需要专家系统或规则引擎的应用程序。 6. networkx: NetworkX是一个用于创建、操作复杂网络的结构、动态以及算法分析的Python库。 它可以用来构建逻辑网络,并进行网络分析和推理。 7. DSharp: DSharp是一个基于Prolog的逻辑编程语言,它提供了一个推理引擎,可以处理复杂的逻辑和规则。 虽然它不是纯粹的Python库,但它可以与Python集成,用于更高级的逻辑推理任务。 8. OpenCog: OpenCog是一个用于开发通用人工智能(AGI)的开源项目,它包括一个复杂的逻辑推理系统。 它提供了多种认知和推理算法,适合研究和开发复杂的AI系统。 9. PyLucene: PyLucene是一个Python接口,用于Apache Lucene的高性能文本搜索和信息检索库。 它可以用来构建搜索系统,其中逻辑推理用于改进搜索结果的相关性。 这些库和工具各有特点,适用于不同的应用场景和需求。开发者可以根据项目的具体要求选择合适的库来实现逻辑推理功能。
2024-05-26
目前的大模型ai工具中 你觉得文本处理 写作这方面那个工具最强 最像人
目前在大模型 AI 工具中,对于文本处理和写作方面,以下是一些相关信息: 生成式人工智能的工作原理:在整体的人工智能领域,监督学习用于标记事物,一直占据很大比例。现在生成式 AI 快速崛起,强化学习与无监督学习也是重要工具。生成式 AI 由监督学习技术搭建,大语言模型使用监督学习不断预测下一个词语来生成文本,这需要大量数据。 大语言模型的应用:运用大语言模型写故事、修改文本很有用,但它可能编造故事产生错误信息,需要鉴别信息准确。网络搜索与大语言模型的区别在于网络搜索可追寻信息来源,大语言模型能提供建议与策略。 写作方面:使用大模型工具如 LLM 来写作,集思广益、头脑风暴非常有用。网页版聊天时提供更多信息,翻译也可使用 LLM,但其效果受网络文本量影响。 推荐的大模型工具:chatGPT 4.0、kimichat、智谱清言 4 等。一些国产模型如智谱和文心可以文生图。 相关工具:除了 Snapbox 外,还有 OpenCAT 等类似工具可供选择。有多种文本处理与总结工具,如 kimi 网页总结助手、ChatHub 等,以及翻译插件与 AI 对话插件、沉浸式翻译插件等。Memo Al 可以对音频视频进行转文字、字幕翻译、语音合成等,并由多种 AI 模型提炼内容精华总结、生成思维导图。 综合来看,不同的大模型工具在文本处理和写作方面各有特点,难以简单地确定哪一个最强、最像人,具体取决于您的需求和使用场景。
2025-04-01
那三款AI写作能力最强
以下为目前写作能力较强的三款 AI 工具: 1. Muse:专门为小说创作训练的 AI 模型工具,可实现在线的小说续写修改、创意头脑风暴以及基于画布形式的故事创作,可免费试用。 2. GPT4:目前功能最强的人工智能写作工具,可以在 Bing(选择“创新模式”)上免费访问,或者通过购买 ChatGPT 的$20/月订阅来访问。 3. Claude 2:写作能力紧随 GPT4 之后,也提供了有限的免费选项。 此外,在广告文案写作方面,以下是排名靠前的几款工具: 1. Simplified:4 月访问量 483 万,相对 3 月变化 0.09。 2. klaviyo SMS Assistant:4 月访问量 471 万,相对 3 月变化 0.045。 3. KoalaWriter:4 月访问量 373 万,相对 3 月变化 6.919。
2025-03-28
短视频文案创作哪个AI能力最强
在短视频文案创作方面,以下几种 AI 能力表现较为突出: Kimi:作为国产大模型,在对中文的理解和写作能力上有一定优势。例如在修改文案使其更押韵方面能有不错的表现。 ChatGPT:能根据具体需求进行写作,作品有其特点。 美趣 AI:具有图片生成和写作生成的功能。 说得相机提词器:是一款写作软件。 AI 智能写作:原生的写作软件。 创客贴 AI:具备平面设计和文案生成的能力。 图趣 AI:原生的图片生成工具。 Molica AI:原生的图片生成工具。 文案宝:原生的个人助理,能进行 AI Bot 智能写作和识图。 此外,在一些挑战赛中,如 Show Me 扣子 AI 挑战赛大消费行业专场中,“营销文案创作专家深度版”能够为企业营销团队等提供从文案框架创作到生成的一站式服务,并进行营销数据分析。
2025-03-28
请推荐搜索功能最强的AI
以下是一些搜索功能较强的 AI 搜索引擎推荐: 1. 秘塔 AI 搜索:由秘塔科技开发,具有多模式搜索、无广告干扰、结构化展示和信息聚合等功能,能提升用户搜索效率和体验。 2. Perplexity:聊天机器人式的搜索引擎,允许用自然语言提问,通过生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出,通过 AI 分析问题,生成清晰有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持多模态搜索。 5. Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 此外,腾讯元宝也是一款搜索功能出色的 AI 产品,它虽然推出较晚,但能凭借独特优势在市场站稳脚跟。其最大亮点是强大的 AI 搜索功能,最近更新了搜索体验,推出深度搜索等新功能,还能访问大量微信生态系统内的私域资源,包括微信公众号的内容以及腾讯内部、互联网上的其他优秀资源。同时,它依托腾讯“混元”大语言模型,能生成高质量内容,在深度搜索时能更全面、深入地回答用户问题,是 GPT Search 的良好替代选择,尤其适合需要访问中文内容和微信生态系统信息的用户。 Perplexity 更是被认为是 AI 搜索领域的“祖师爷”,早在 2022 年就已开始探索。其官网为 https://perplexity.ai/,Pro 会员每月 20 美元,成为 Pro 会员后可使用高级模型,并享受无限制的 Pro 搜索。在处理复杂问题时,其专业搜索模式表现出色。
2025-03-22
现在最强最新的文本模型是什么,如何免费使用
目前较为强大和新的文本模型包括: BERT:由谷歌推出,是“来自Transformer的双向编码器表示”的缩写。可在免费下载和使用。能用于文本摘要、问答、分类、命名实体识别、文本相似度、攻击性信息/脏话检测、理解用户查询等多种自然语言处理任务。 GPT3:由 OpenAI 创建,生成真实文本的能力令人惊讶。 GPT4:OpenAI 目前最先进的自然语言生成模型,可用于回答问题、撰写文章等。 Gemini Ultra:Google 的多模态人工智能模型,采用神经网络架构,对标 GPT4,可用于回答问题、生成代码、处理文本等。 Claude 3 Opus:Anthropic 的多模态模型,能处理超过 1 百万 token 的输入,具有实时聊天、数据处理、分析预测等功能,实现了接近完美的召回率。 “悟道・天鹰”:北京智源人工智能研究院推出,是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。 文心一言:百度的大语言模型,可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。 需要注意的是,免费使用这些模型可能存在一定限制,部分模型可能需要特定的条件或授权。同时,模型的性能和适用性也会因具体应用场景和需求而有所不同。
2025-03-15
目前最强的AI是哪家?
目前在 AI 领域,很难简单地确定哪家是最强的。Llama 3.1 是迄今为止最大版本,在推理、数学、多语言和长上下文任务中能与 GPT4 相抗衡,标志着开放模型缩小了与专有前沿的差距。 谷歌 DeepMind 与纽约大学团队开发的 AlphaGeometry 在奥林匹克级几何问题基准测试中表现出色,解决了 30 题中的 25 题,接近人类国际数学奥林匹克金牌得主的表现。 在国内,由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得了优异成绩,尤其在数学和编程方面表现突出。智谱一年间推出了 4 代 GLM,一直是国内能力较好的模型之一。MiniMax 推出了 MoE 架构的新模型,还有“星野”这个目前国内较成功的 AI 陪聊 APP。月之暗面专注长 Token 能力,在记忆力和长 Token 能力上有一定优势。 需要注意的是,AI 领域发展迅速,各模型的优势和表现也会随时间变化。
2025-03-13
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14
我应该如何开始0-1学习AI绘画?当前最好用的工具是什么?
以下是一些关于 0 1 学习 AI 绘画的建议和当前好用的工具: 您可以通过观看相关视频教程来入门,比如: “10 分钟教会你如何手把手撰写提示语,全网最细 ChatGPT 对话指南,保姆级教程!” ,视频使用到的 AI 工具包括 AI 提示语,平台链接: 。 “零基础 AI 绘画入门,Midjourney、Stable Diffusion,小白速成,一站式使用和最强入门教程” ,视频使用到的 AI 工具包括 AI 提示语,一个无需魔法上网的 AI 绘画工具,平台链接: 。 目前,Midjourney 和 Stable Diffusion 是比较受欢迎的 AI 绘画工具。
2025-04-10
当前所有大模型的能力排行
目前大模型的能力排行情况较为复杂,以下为您提供部分相关信息: 8 月正式上线的国内大模型包括北京的百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ ,上海的商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 。在聊天状态下,能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax ;目前不能进行自然语言交流的有昇思、书生;受限制使用的有 MiniMax 。特色功能方面,昇思能生图,MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。 2023 年度中文大模型基准测评报告显示,在语言与知识的测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型也表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 13 位,较为接近 GPT4。在开源模型中,零一万物的 Yi34BChat、阿里云的 Qwen72BChat、百川智能的 Baichuan213BChat 取得了不错的成绩,均超过了 50 分,分列国内模型的 13 名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型。 关于大模型的评测榜单还有: Open LLM Leaderboard:地址 ,由 HuggingFace 组织,目前已评估了较多主流的开源 LLM 模型,评估主要包括 AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA 四个数据集上的表现,主要以英文为主。 chinesellmbenchmark:地址 ,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b 等开源大模型,多维度能力评测,不仅提供能力评分排行榜,也提供所有模型的原始输出结果。 SafetyPrompts:地址 ,由清华大学提出,是一个关于 LLM 安全评测 benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的 prompt。
2025-03-28
当前效果比较好的对口型,换脸,配音AI应用
以下是一些效果较好的对口型、换脸、配音的 AI 应用: Runway:网址为 https://runwayml.com ,有网页和 app 方便使用。工具教程: 即梦:网址为 https://dreamina.jianying.com/ ,是剪映旗下产品,生成 3 秒,动作幅度有很大升级,有最新 S 模型和 P 模型。工具教程: Minimax 海螺 AI:网址为 https://hailuoai.video/ ,非常听话,语义理解能力非常强。视频模型: Kling:网址为 kling.kuaishou.com ,支持运动笔刷,1.5 模型可以直出 1080P30 帧视频。视频模型: Vidu:网址为 https://www.vidu.studio/ haiper:网址为 https://app.haiper.ai/ Pika:网址为 https://pika.art/ ,可控性强,可以对嘴型,可配音。工具教程: 智谱清影:网址为 https://chatglm.cn/video ,开源了,可以自己部署 cogvideo。工具教程: PixVerse:网址为 https://pixverse.ai/ ,人少不怎么排队,还有换脸功能。工具教程: 通义万相:网址为 https://tongyi.aliyun.com/wanxiang/ ,大幅度运动很强。 luma:网址为 https://lumalabs.ai/ 即梦 AI 对口型的相关教程: 功能介绍:「对口型」是即梦 AI「视频生成」中的二次编辑功能,现支持中文、英文配音。目前主要针对写实/偏真实风格化人物的口型及配音生成,为用户的创作提供更多视听信息传达的能力。可上传包含完整人物面容的图片,进行视频生成,待视频生成完成后,点击预览视频下的「对口型」按钮,输入台词并选择音色,或上传配音文件进行对口型效果生成。目前支持语言:中文(全部音色),英文(推荐「超拟真」内的音色) 技巧:上传写实/近写实的人物单人图片,目前不支持多人物图片对口型;输入 prompt,选择参数,点击生成视频,尽量确保人物无形变等扭曲效果;确保人物生成的情绪与希望匹配的口型内容匹配;在生成的视频下方,点击【对口型】;输入或上传需要配音的内容,注意视频生成时长和配音试听时长尽量对齐,点击生成。先对口型,再超分补帧 关于 AI 短片的相关信息: AI 图片与视频生成的新能力与应用: 图片编辑功能:Midjourney 新增本地图片上传编辑入口,可进行局部重绘、扩图和风格转换等操作。 视频生成模型:解梦新出 p 模型和 s 模型,p 模型支持人物多动作和变焦,易改变画风;s 模型生成速度快、积分消耗少,能保持原始画风但语义理解有限。 特效玩法:皮卡和 Pixforce 有特效玩法,如人物爆炸、漂浮等,可用于优化视频效果。 视频转会:Runway 的 GN3 模型支持上传视频并转换风格,可用于实现多元宇宙等风格穿梭的片子,也能将简单场景转换为难以拍摄的场景。 视频生成中的角色生视频技术: 角色生视频突破关键帧限制:当前视频生成多依赖关键帧,而角色生视频不再是关键帧输入,而是直接传入角色本身,可更灵活生成视频,如让小男孩从左跑到右。 多角色参考生成创意视频:支持上传多张图,最多三张,可将人物、衣服、背景等元素融合生成视频,如小男孩穿裙子在宇宙飞。 角色对口型技术:如吉梦的对口型技术,支持文本朗诵和本地配音,能根据输入生成人物开口讲话的视频,但有上传人物长相等限制。 不同工具的角色生视频效果:对比了吉梦、Runway 等工具的角色生视频效果,如 Runway 的 x one 在身体、头部、眼神动态上表现更好。 角色生视频的应用场景:可用于规避机器人念台词的尴尬瞬间,让机器人有更丰富的表情和神态。 角色生视频的未来发展:未来视频生成将摆脱纯关键帧方式,采用多模态信息输入,如定义角色和场景的三视图等。
2025-03-25
transformer是通往AGI的必经之路吗?什么是世界模型,当前有哪些进展
Transformer 并非通往 AGI 的必经之路。在已知的 token space 中,Transformer 符合一些条件,但在更通用的场景中不太符合。AI 本质包含一堆 scaling law,一个值得被 scale up 的架构是基础,且架构要支持不断加入更多数据。当前在数据方面,如限定问题的数据生成有进展,但通用问题还没有完全的解法。 世界模型方面,目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统,其逻辑受指向描述变化,如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构,都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构,以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单,需要探寻 RL 与 LLM 的本质普遍性。
2025-03-16
AI应用赛道中top应用介绍,实现的功能和应用场景,产品Launch时间:AIGC功能 Launch时间、当前月活用户数、营收利润、一年成本投入、市场占有率、目前融资金额及估值、创始团队介绍、公司员工规模、所属国家、用户来源、用户来自于哪些国家、用户profile、转化率、ROI等等, 盈利模式,优劣势与未来发展趋势。
以下是关于 AI 应用赛道的相关介绍: 应用场景:涵盖医疗、制造业、金融风控、消费端个性化服务、办公、农业、能源优化、娱乐等领域。 关键技术: 1. 包括大语言模型作为中枢神经系统,记忆模块实现长期和短期记忆,以及规划能力中的目标设定、任务拆解、生成策略、执行与反馈、资源管理和多智能体协同。 2. 强化学习用于环境感知和决策调整,多模态融合涉及多种数据类型,低成本训练是考虑成本的重要因素。 智能体特征:包括自主性、交互性和适应性,如通过自我对弈和博弈不断进化,在金融风控领域利用大量数据提升准确率。 AI 技术路线:从有语言能力的 AI 到有推理能力,再到能使用工具、发明创新以及形成组织,共五级。 智能体框架类型:分为任务驱动型、多智能体协作、强化学习型、具身智能体、应用型智能体,每种类型都有代表性框架。 智能体与大模型的关系:大模型是中枢和基石,智能体是行动引擎,两者协同演进,智能体产生的数据可反哺大模型。 未来趋势:智能体可能在中小企业中更具效益,人机协作中人类成为监督角色,但存在算力成本、伦理风险、技术瓶颈等挑战。 B 端变现与创业方向: 1. B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。 2. 自媒体创业:视频号等平台尚有蓝海空间,需具备内容创新和差异化,内容成本低且更新迭代快。 3. 游戏创业:个人或团队可做轻量化游戏,结合 AI 技术,满足放松和社交需求,专注垂类赛道,避免与大厂竞争。 4. 影视创业:25 年将是拐点,更多内容会采用 AI 技术,如哪吒 2 因前期规划未用 AI 技术。 5. 广告营销创业:重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: 1. 创业难点:创业对创业者综合能力要求极高,找到志同道合且能力互补的战友是创业前期最难的事。 2. AI 虚拟人发展:从早期以首位为核心的宅文化虚拟偶像,到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人,其发展历程不断演进。 3. 虚拟人产业链:包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。 4. 未来创业机遇:AI 虚拟人是未来 310 年 Web 3.0 的风口,提前布局未来有潜力的赛道,准备好迎接机遇。 相关案例和产品信息: 1. 10 月 26 日,AI 翻译和口型匹配技术在视频制作中的应用逐渐流行,公司如 Captions、HeyGen 和 Verbalate 通过 AI 生成字幕、配音和口型匹配等功能,帮助用户轻松实现视频翻译本地化。 2. 10 月 25 日,Perplexity 最新估值约为 5 亿美元,较 3 月宣布的 1.5 亿美元估值上涨 300%以上,当前的付费用户数量达到了 1.5 万人,截止本月,Perplexity 的 ARR 达到 300 万美元,最新估值约为 ARR 的 150 倍。 3. 《100 个有意思的 AI 应用》由国盛证券出品,分为基于 LLM 自然语言能力的对话、写作、阅读、分析等应用;多模态技术持续发展,图像、视频、音频、3D 等 AIGC 应用;企业级应用等。
2025-03-14