Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

请告诉我现在市面上推出的宣传了大模型的硬件产品

Answer

目前市面上宣传了大模型的硬件产品情况如下:

  • 在手机和 PC 端,华为、荣耀、小米、OPPO、VIVO、三星、联想等厂商都已宣布会在手机/PC 端侧搭载大模型。但目前除了很弱的 Nvidia Chat with RTX,并没有真正全离线版的大模型产品,端上智能暂时还是噱头。手机和电脑厂商们的打法基本都是大模型放在线上,手机和电脑来调用,然后搭配一个小 AI 做总结等服务。
  • 国内方面,硬件层上的卡脖子情况尚未缓解,目前国内仍然没有芯片可以胜任大模型训练。不过在推理上已经开始有 Nvidia 的替代产品逐渐出现。备受瞩目的华为昇腾在单卡指标上距离不远,但因为稳定性不足和缺乏 Cuda(硬件编译库)生态,仍然需要时间打磨。

8 月正式上线的国内大模型涉及的企业机构及相关情况:

  • 五家北京企业机构:百度(文心一言)https://wenxin.baidu.com ;抖音(云雀大模型)https://www.doubao.com ;智谱 AI(GLM 大模型)https://chatglm.cn ;中科院(紫东太初大模型)https://xihe.mindspore.cn ;百川智能(百川大模型)https://www.baichuan-ai.com/
  • 三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/ ;MiniMax(ABAB 大模型)https://api.minimax.chat ;上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn

这些大模型在聊天状态下的特点包括:能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax;目前不能进行自然语言交流的有昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生;受限制使用的有 MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值);特色功能方面,昇思能生图,MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。

Content generated by AI large model, please carefully verify (powered by aily)

References

AGI 万字长文(下)| 2024,分叉与洪流

在AI上发力的还有手机和PC厂商:华为、荣耀、小米、OPPO、VIVO、三星、联想等都已宣布会在手机/PC端侧搭载大模型。这个可能性来自于:2023年下半年“模型小型化”的众多进展(详情见“上篇”)。不过,仔细看来,除了很弱的Nvidia Chat with RTX,目前并没有真正全离线版的大模型产品,端上智能暂时还是噱头。手机和电脑厂商们的打法基本都是大模型还是放在线上,手机和电脑来调用,然后搭配一个小AI做总结等服务。“端”确实“智能”了,但"大脑"还在线上,手机上顶多有个"脑干"。纯粹的端上智能有几个问题:1)离线小模型永远都会和在线大模型有一个代际的能力差距,于是为什么消费者要用一个更傻的模型而不是用线上的模型服务?2)即使是小模型,它目前的耗能和生热仍然难以达到手机要求。3)目前的AI还不是刚需,猎奇成分比较多。4)技术上还不能确认小型化的模型是“真AGI”还是“聊天机器”。所以说,短期内的端上智能仍然会停留在一些个别小市场里。

AGI万字长文(上)| 2023回顾与反思

智谱:一年间推出了4代GLM,一直是国内能力最好的模型之一MiniMax:推出了MoE架构的新模型,和”星野“这个目前国内最成功的AI陪聊APP月之暗面:专注长Token能力,在记忆力和长Token能力上可圈可点其他的我暂时不列了,在2023年官宣AI大模型的公司非常多,其中免不了很多是蹭流量的。以及,大模型确实有门槛,融了资的公司还有些钱花,我们可以多给一些时间看2024年的结果。(判断的方式并不客观,欢迎讨论)从产品层面上,2C端唯一真正出圈的是“妙鸭相机”,不过也只是昙花一现。大多数消费者对于AI产品的态度是“猎奇”,而非刚需。在2B行业中,大模型目前还是“纯技术投入”,对于收入撬动非常有限;而卖AI的大厂们实际上的目的是为了卖云……最后,硬件层上的卡脖子并没有缓解。目前国内仍然没有芯片可以胜任大模型训练。不过在推理上已经开始有Nvidia的替代产品逐渐出现。备受瞩目的华为昇腾在单卡指标上距离不远,但因为稳定性不足和缺乏Cuda(硬件编译库)生态,仍然需要时间打磨。美国对于国内的芯片禁运在未来还会进一步加深;因此,除了卷模型之外,基于昇腾生态的软-硬件创业是一个机会,而且是更确定的机会。

8月正式上线的国内大模型

5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品

Others are asking
市面上一些数字人软件交费成为会员后,以后做数字人短视频还要付费吗
市面上不同的数字人软件在付费成为会员后的收费情况有所不同。 例如,在某些电商场景中,使用数字人结合产品做短视频,可通过购买邮箱注册使用免费时长或直接购买会员版。直播应用可能需要收费,而短视频方面,有的可以利用免费时长,有的则需要购买会员。 像可灵这款视频模型,于 7 月 24 日发布会员体系,结束免费内测。使用其生成视频会消耗灵感值,使用高级功能和获取更多灵感值需付费成为 VIP 用户。非 VIP 用户只能使用普通功能,每天登录送 66 灵感值(有效期一天),大约可生成 6 个视频。会员充值限时一周半价,黄金会员 33 元/单月、396 元/一年,铂金会员 133 元/单月、1596 元/一年,钻石会员 333 元/单月、3996 元/一年。 另外,对于剪映数字人的“私有化”,尽管剪映有很多公模数字人,但私模数字人更受欢迎。可以用 AI 换脸软件完成最后一步,如通过谷歌浏览器打开特定链接进行操作,注意需要谷歌账号(可通过淘宝或特定平台购买)。 总之,不同数字人软件的收费规则各异,具体还需根据您使用的软件来确定。
2025-04-01
目前中国市面上什么好用的AI工具
以下是中国市面上一些好用的 AI 工具: 内容仿写 AI 工具: 秘塔写作猫:https://xiezuocat.com/ 。写作猫是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,还能实时同步翻译。支持全文改写,一键修改,实时纠错并给出修改建议,智能分析文章属性并打分。 笔灵 AI 写作:https://ibiling.cn/ 。是得力的智能写作助手,支持多种文体写作,能一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作:https://effidit.qq.com/ 。智能创作助手,探索提升写作者效率和创作体验。 更多 AI 写作类工具可查看:https://www.waytoagi.com/sites/category/2 。 图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感。 Retrato:将图片转换为非凡肖像,有 500 多种风格选择。 Stable Diffusion Reimagine:通过稳定扩散算法生成精细、具细节的全新视觉作品。 Barbie Selfie Generator:将上传照片转换为芭比风格。 图像类产品: 可灵:由快手团队开发,用于生成高质量图像和视频,图像质量高,但价格相对较高,有不同收费档次。 通义万相:在中文理解和处理方面出色,可选择多种艺术和图像风格,操作界面简洁直观,用户友好度高,目前免费,每天签到获取灵感值即可,但存在一些局限性,如某些类型图像无法生成,处理非中文或国际化内容可能不够出色,处理多元文化内容可能存在偏差。
2025-03-26
如果调教ai助力成为网文作家?选用市面上哪种ai模型好一些
如果想调教 AI 助力成为网文作家,以下是一些建议和可选用的 AI 模型: 借助 AI 分析好的文章: 找出您最喜欢的文章,投喂给 DeepSeek R1(理论上来说适合大多数 AI,尤其是有推理模型)。 分三次询问:第一次从写作角度分析;第二次从读者角度分析;第三次指出文章的缺点、不足及改善和提升的空间。 对作者进行侧写,分析成长背景、个人经历和知识结构对文章的影响。 让 AI 对您写的文章进行点评:使用类似“现在我希望你是一名资深中文写作教师/小学语文老师/中学语文老师/公文写作培训师,拥有 30 年教育经验,是一名传授写作技巧的专家。请先阅读我提供给你的文章,然后对文章进行分析,然后教我如何提升写作水平。请给出详细的优缺点分析,指出问题所在,并且给出具体的指导和建议。为了方便我能理解,请尽量多举例子而非理论陈述”的提示词。 分享一个根据文章内容对作者心理侧写的提示词:“我希望你扮演一个从业 20 多年,临床诊治过两千多例心理分析案例的人性洞察和意识分析方面的专家,精通心理学、人类学、文史、文化比较。先阅读后附文章全文,然后对作者进行人格侧写。要尖锐深刻,不要吹捧包装,不要提出一些只能充当心理安慰的肤浅的见解。包括作者的基本画像、核心性格特质、认知与价值观、潜在心理动机、行为模式推测、矛盾与盲点、文化符号映射。” 在模型选择方面: 目前只推荐 Claude 3.7 Sonnet,Anthropic 对 Claude 在编程和美学方面有深度优化,效果较好。但您也可以使用 DeepSeek 等模型进行尝试。 对于模型的选用,没有强制必须用某个模型的说法。而是根据自己的习惯、实测的响应速度、生成质量、调用费用进行综合选择。比如 Doubao Function Call 模型,对于插件调用、Coze 内 json 格式输出比较擅长;MiniMax 处理文字速度很快;GLM 对于用户提示词的理解比较好。每个模型都有自己擅长的特点,而且每家模型都在不断的迭代。所以模型的选用,需要根据实测情况综合调整。一般可选择豆包·function call 32k,“function call”代表有着更好的 Coze 的工具调用能力,“32k”代表模型的上下文窗口大小,即模型在处理文本时能够考虑的单词或标记的数量。如果输出和输入的类型不是纯文本时,比如是 array、object 结构,请根据实测情况,考虑替换上豆包 function call 版本,其他的 LLM 可能会输出格式比较混乱。
2025-03-25
市面上对aigc设计岗位的需求度
目前,AIGC 相关岗位的需求呈现增长趋势。例如,网易内部要求所有设计师掌握 AIGC,腾讯 ISUX 已将 AI 应用于实战。在招聘方面,某数字银行招聘 AIGC 产品经理(深圳),其任职要求包括相信 AIGC、喜欢使用各种 AIGC 应用、能够上手相关操作等,岗位职责包括构建大模型工程化产品、探索和设计工程化产品、在重点业务场景中推动大模型的应用落地等。此外,小红书上也有众多 AIGC 相关的博主,如万能妍仔的 AIGC 等。总体而言,AIGC 领域的岗位需求在不断扩大,且对从业者的要求也在逐渐明确和提高。
2025-03-21
比较分析目前市面上的所有 AI软件
以下是对目前市面上部分 AI 软件的比较分析: 摄影相关: AI 摄影参数调整助手:使用图像识别和数据分析技术,常见于摄影 APP 中,能根据场景自动调整摄影参数,市场规模达数亿美元。 500px 摄影社区:拥有 AI 摄影比赛平台,运用图像识别和数据分析技术,举办各种主题的摄影比赛,市场规模达数亿美元。 音乐相关: AI 音乐情感分析平台:采用机器学习和音频处理技术,有音乐情感分析软件,市场规模达数亿美元,可分析音乐的情感表达。 Logic Pro X 教学软件:借助机器学习和音频处理技术,是 AI 音乐制作教学平台,市场规模达数亿美元,能为用户提供个性化教学服务。 家居相关: AI 家居智能照明系统:结合物联网技术和机器学习,如小米智能照明系统,市场规模达数十亿美元,可实现家居照明的智能化控制。 鲁班到家 APP:运用数据分析和自然语言处理技术,是 AI 家居维修服务平台,市场规模达数亿美元,能为用户推荐附近的专业维修人员。 金融相关: AI 金融风险预警平台:使用数据分析和机器学习技术,有金融风险预警软件,市场规模达数十亿美元,可提前预警金融风险。 雪球财经 APP:利用数据分析和自然语言处理技术,是 AI 金融投资教育平台,市场规模达数亿美元,能为用户提供个性化的金融投资教育服务。 其他领域: AI 菜谱口味调整工具:运用自然语言处理和数据分析技术,如下厨房口味调整功能,市场规模达数亿美元,能根据用户反馈调整菜谱口味。 AI 语言学习纠错平台:采用自然语言处理和机器学习技术,如英语流利说纠错功能,市场规模达数十亿美元,可帮助语言学习者纠正错误。 AI 电影剧情分析系统:借助数据分析和自然语言处理技术,如豆瓣电影剧情分析工具,市场规模达数亿美元,能分析电影剧情并提供深度解读。 AI 办公文件分类系统:结合数据分析和机器学习技术,如腾讯文档分类功能,市场规模达数亿美元,可自动分类办公文件。 AI 美容护肤方案定制平台:使用图像识别和数据分析技术,如美丽修行定制方案功能,市场规模达数亿美元,能根据用户肤质定制护肤方案。
2025-03-21
AI数字人是什么,市面上目前有哪些生成数字人的AI工具,介绍一下这些工具的网址以及优缺点
AI 数字人是通过人工智能技术创建的虚拟人物形象。 目前市面上常见的生成数字人的 AI 工具及相关信息如下: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 网址: 使用方法: 点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片。 上传后效果如图所示,My Avatar 处显示上传的照片。 点开大图后,点击 Create with AI Studio,进入数字人制作。 写上视频文案并选择配音音色,也可以自行上传音频。 最后点击 Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 网址: 使用方法: 点击上面的网址,点击右上角的 Create vedio。 选择人物形象,可以点击 ADD 添加自己的照片,或者使用 DID 给出的人物形象。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击 Generate vedio 就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很 AI。 网址: 使用方法: 点击上面的网址,注册后获得 120 免费 k 币,这里选择“照片数字人口播”的功能。 点击开始创作,选择自定义照片。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 打开绿幕按钮,点击背景,可以添加背景图。 最后,点击生成视频。 此外,还有开源且适合小白用户的数字人工具,如: 特点:一键安装包,无需配置环境,简单易用。 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 网址: GitHub: 官网: 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2025-03-14
AI硬件
以下是关于 AI 硬件的相关信息: 扣子 AI 工坊 硬件专场 推出全套硬件方案,将 DeepSeek 最新模型接入 AI 硬件,实现 1+1>2。 活动亮点: 硬件实验室:现场设置智能硬件展示,看脑洞大开的产品。 硬件场景分享会:扣子硬件场景最佳实践和 2025 年硬件解决方案分享。 开发者体验营:开发者现场开发 AI 硬件,提供硬件开发板,60 分钟内完成“唤醒交互响应”全链路开发,40 分钟作品现场展示解说,展示作品的开发者可获得扣子周边礼物。 硬件厂商需求墙:与硬件厂商、开发者、扣子官方同学现场交流。 分享嘉宾(排名不分先后):曾德钧(猫王妙播音响创始人/设计师)、刘琰(机智云联合创始人兼 CTO)、颜伟志(扣子开放体系技术负责人) 活动报名:扫描二维码报名,现场有拍立得、音响、扣子周边等礼品。报名时间为即日起至 2025 年 2 月 26 日。 2025 年 AI 指数报告 硬件的进步在推动 AI 发展中起着关键作用。在扩展模型和在更大的数据集上进行训练带来显著性能改进的同时,这些进步在很大程度上得益于硬件的改进,特别是更强大和高效的 GPU(图形处理单元)的发展。GPU 加速复杂计算,允许模型并行处理大量数据并显著减少训练时间。 Will's GenAI 硬件榜 2024 年 8 月 GenAI 硬件的定义:利用了 GenAI 技术,主要是 LLM,包括在音频生成、翻译、视觉采集并解读,和硬件结合,以可穿戴为主,逐步渗透的新品类硬件,以 Meta 雷朋眼镜为代表。 榜单受众:GenAI 硬件创始人、投资人、从业者等。 榜单标的:以北美市场的视角,销量、影响力为主。 榜单初心:随着 Meta 眼镜的成功,GenAI 硬件爆发在即,本榜单每月从多角度围观这一现象,旨在给创业者提供参考。 本次更新(9.19): 更新亚马逊销量、独立站流量、新品发布、融资信息,排序标准以媒体综合指数改为 Tiktok 热度。 完善挂件、戒指、眼镜等分类榜数据。 榜单包括 15 个重要榜单,更多榜单可通过文末“阅读原文”免费访问或直接访问飞书链接。数据来源:google、tiktok、twitter、亚马逊。对于榜单内容有疑问想交流的 GenAI 硬件创始人,或者想合作转载内容的公众号博主,请加微信,或者在本文末留言。
2025-04-15
现在比较好用的AI硬件工具推荐一下,比如鼠标,眼镜,耳机啥的
以下是为您推荐的一些 AI 硬件工具: 1. 对于将 Raspberry Pi 连接到其他设备的配件,您可以参考: 防止过热的散热器 MicroUSB 转 USB 适配器,用于 Logitech 键盘的无线传感器 用于显示器的 MiniHDMI 转 HDMI 适配器 键盘和鼠标:推荐 2. 在可穿戴方面,以 GenAI 硬件为例,Meta 雷朋眼镜是具有代表性的产品。您还可以查看 GenAI 硬件榜单获取更多信息,比如: ,该榜单包含多个分类,数据来源包括 google、tiktok、twitter、亚马逊等。
2025-04-13
本地部署大模型硬件配置
本地部署大模型的硬件配置如下: 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 需要注意的是,最低配置可能运行速度非常慢。对于 SDXL 大模型的本地部署,其分为两个部分,base + refiner 是必须下载的,还有一个配套的 VAE 模型用于调节图片效果和色彩。要在 webUI 中使用 SDXL 的大模型,需在秋叶启动器中将 webUI 的版本升级到 1.5 以上,然后将模型放入对应的文件夹中。对于通义千问的 Qwen2.5 1M 模型的本地部署,使用以下命令启动服务时要根据硬件配置进行设置,如设置 GPU 数量、最大输入序列长度、Chunked Prefill 的块大小、限制并发处理的序列数量等。如果遇到问题,可参考相关的 Troubleshooting 内容。与模型交互可以使用 Curl 或 Python 等方法,对于更高级的使用方式,可以探索如 Qwen Agent 之类的框架。
2025-03-31
coze开发硬件接入ai
如果您想开发硬件接入 Coze 智能体,以下是一些相关信息: 在服务器设置方面,对于 chatgptonwechat(简称 CoW)项目,可点击“Docker”中的“编排模板”中的“添加”按钮。备注说明版可借用“程序员安仔”封装的代码。将编译好的内容复制进来,在“容器编排”中“添加容器编排”,选择在“编排模板”里创建的“coze2openai”,若无法正常启动,可查看文档后面的“常见问题”。 关于计划,包括弄共学、做网页连接 Coze 等,涉及网页、小程序、App、桌面应用、浏览器插件等方面,还提到了硬件相关的工作安排。 在入门 Coze 工作流方面,首先要明确任务目标与执行形式,包括详细描述期望获得的输出内容(如文本、图像、音频等形式的数据,以及具体格式和结构、质量标准),预估任务的可行性,确定任务的执行形式。例如对于一篇文章,可参照特定框架进行微调,评估任务可行性,结合使用习惯确定预期的执行形式。
2025-03-27
AI硬件
以下是关于 AI 硬件的相关信息: 扣子 AI 工坊将于 3 月 1 日在深圳举办硬件专场活动。活动亮点包括硬件实验室、硬件场景分享会、开发者体验营、硬件厂商需求墙等。分享嘉宾有曾德钧、刘琰、颜伟志等。可扫描二维码报名,报名时间为即日起至 2025 年 2 月 26 日,现场有礼品。 Will's GenAI 硬件榜 2024 年 8 月发布,榜单受众为 GenAI 硬件创始人、投资人、从业者等,以北美市场的销量、影响力为主,本次更新完善了相关数据和分类榜,更多榜单可通过链接访问。 峰瑞报告中提到,在 ToP 领域,峰瑞投资的冰鲸科技是一家 AI 智能硬件公司,推出了集成端侧 GPU 的旗舰产品 ZimaCube。ToB 方面,AI 应用进入企业内部可从“独立业务模块”和“通用技能模块”切入。
2025-03-26
有coze硬件的案例吗
以下是一些关于 Coze 硬件的案例: 1. 一泽 Eze:用 Coze 打造 AI 精读专家智能体,复刻 10 万粉公众号的创作生产力。 分步构建和测试 Agent 功能:首先进入 Coze,点击「个人空间工作流创建工作流」,打开创建工作流的弹窗。根据弹窗要求,自定义工作流信息。点击确认后完成工作流的新建。左侧「选择节点」模块中,实际用上的有插件、大模型、代码。按照流程图,在编辑面板中拖入对应的 LLM 大模型、插件、代码节点,即可完成工作流框架的搭建。 2. 90 分钟从 0 开始打造你的第一个 Coze 应用:证件照 2025 年 1 月 18 日副本。 智能纪要:Code AI 应用开发教学,背景是智能体开发从最初的 chatbot 只有对话框,到有了更多交互方式,因用户需求扣子推出了 AI 应用,其低代码或零代码的工作流等场景做得较好。 3. 大雨:【场景驱动】企业的哪些重复性任务,最适合用 Coze 循环节点来解决? 案例展示:出海品牌设计师。早起智能体的逻辑通过工作流承载,比如让 AI 出图以后,希望在它的基础上再修改,直到满意为止,这种情况没有循环节点,整个工作流会非常复杂。从这个案例可以明显感受到,在智能体的交互上,循环节点的出现,带来极大的可能性。部分工作流的截图体现出 Coze 在实际业务场景上,具有非常巨大的商业价值。
2025-03-25
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
多张图片生成宣传视频
以下是关于多张图片生成宣传视频的相关内容: ComfyUI AniamteDiff 图片融合视频: 模型:加载用到两个 lora,一个是 Animatediff v3_sd15_mm 运动模型需要的 v3_sd15_adapter,lora 强度越高画面越稳定,但需在合理范围;另一个 more_details 用于给画面添加更多细节,模型和工作流会放在网盘里。 参数设置:上传 4 张图片,并使用 image batch 复制图像制作批次,这是为了在使用 IPAdapter 时让每一帧都能参考上传的图片,使风格迁移更像,上传的蒙版视频用于在帧与帧之间做遮罩过渡,添加动态效果。 IPAdapter:用于图像的风格迁移,对应四张图片。使用遮罩控制每张图片显示的帧数,从第 0 帧开始计算,一张图片 16 帧,加上中间过渡的 8 帧,在创建遮罩时,需要显示的帧设置为 1,隐藏的为 0,以此类推,将 4 张图片融合成 96 帧的序列,并使用遮罩控制每一帧显示的画面。 流量密码!小红书万赞英语视频用扣子一键批量生产: 原理分析:这种视频由多张不同的带文字的图片生成,主要是教英语的内容,读到哪句哪句高亮,图片也随句子变化。视频由多张带文字图片和音频合成,带文字图片由文字和图片生成,音频由文字生成,最主要的是把图片和文字搞出来。 找模版:逻辑理清后先找好看的模版,未找到好看的视频模版,最后看到一个卡片模版,先把图片搞出来才有资格继续思考如何把图片变成视频。
2025-04-09
有没有成熟的ai制作宣传海报的工作流
以下是一些成熟的 AI 制作宣传海报的工作流: 1. 确定需求场景:例如想在社交平台发布内容时,为了获得更多点赞,需要有吸引力的图片;网上图片质量差且易撞图,自己相册中的照片不合适等情况。 2. 大致流程: 主题与文案:确定海报主题,借助 ChatGPT 等文本类 AI 工具完成文案。 风格与布局:选择想要的风格意向,根据文案和风格灵活调整画面布局,背景不一定空白。 生成与筛选:使用无界 AI 输入关键词,生成并挑选满意的海报底图。 配文与排版:将上述素材进行合理排版,得到成品。排版可参考 AIGC 海报成果。 此外,还有一些相关案例: 1. 游戏 PV《追光者》:灵感来源于《艾尔登法环》、《黑神话悟空》等游戏开场片,加入佛教元素。结合 ChatGPT 进行故事框架创作,使用 MJ 绘图、SD 重绘,制作深度图以及视频、AI 抠图,Aive 尝试制作背景音乐,微软 AI 制作旁白。除撰写故事框架外,生图及后期配音约用 7 天完成。 2. Junie 首部 AI 长电影:在传统制作流程中融入 AI 工具,如在 Discord 平台创作,依据 Notion 里的制作安排和细分章节剧本推进。用到多种 AI 工具,包括 AI 图像生成(Stable Diffusion/Midjourney v5.2/DALL·E)、AI 动画(Pika/Runway/Deforum)、口型同步(DID)、AI 旁白(ElevenLabs)、剪辑(Premiere)、文字翻译(ChatGPT)等,也会结合 3D 技术、AE 以及实拍等传统手段。
2025-03-15
我想用ai做关于宣传东营的视频
以下是一些利用 AI 制作关于宣传东营视频的方法和步骤: 1. 可以使用飞书多维表格字段插件,通过指令和 AI 生成视频插件来批量生成宣传视频。首先创建一列字段,从字段捷径 AI 中心中选择智谱 AI 生成视频。插件配置较为简单,直接选择视频指令作为文本描述即可批量生成。但视频生成需要一定时间,生成后可点击播放查看效果,如有不满意可重试或手动调整指令。 2. 还有一种无需编程和专业视频制作技能的方法,能以低成本快速制作数字人视频。数字人视频的整体制作流程大致分为三步: 创建视频内容:通过输入文稿内容,确定数字人播出的内容。 生成数字人:通过工具,以及视频内容生产数字人形象及播放语音。 AI 换脸:通过 AI 工具,将数字人的脸转换成指定宣传的形象,以便以自己的品牌形式宣传。 3. 利用 ChatGPT 生成视频脚本,例如设定关键词为“深受年轻人喜欢的电影导演”“长度大约在 1 分钟”“山海经中的神兽在赛博朋克世界”,让其创作宣传视频脚本。之后与 ChatGPT 讨论、修改细节、撰写宣传文案,把控核心内容、优化脚本,最终完成视频脚本定稿。
2025-03-10
有哪些自动生成宣传海报的ai
以下是一些自动生成宣传海报的 AI 工具及相关方法: 1. 某些活动中开发的 AI 可以在提供配方的同时自动生成海报,例如鸡尾酒配方搭配生成的私人订制海报。 2. 国内的 AIGC 绘图平台,如无界 AI 可以用于快速制作海报底图并完成主题海报排版。大致流程如下: 确定海报主题后,借助 ChatGPT 等文本类 AI 工具协助完成文案。 选择想要完成的风格意向,根据文案和风格灵活调整画面布局。 使用无界 AI 输入关键词,生成并挑选一张满意的海报底图。 将上述素材进行合理排版,得到成品。排版同样可以参考 AIGC 海报成果。 3. 在无界 AI 中,还可以通过图生图的方式生成海报。首先准备一张真实照片作为样图,然后找到图生图功能,添加关键词,如果要改变画面内容,可调整相关参数和增加修饰词。
2025-03-03
如何用AI帮助优化宣传片拍摄工作流?
以下是一些利用 AI 帮助优化宣传片拍摄工作流的方法: 1. 创作策略方面: 明确主题,聚焦文旅融合,突出两会对文化旅游行业的重视及其在推动经济社会发展中的作用,结合 AI 技术展示中国文化旅游的创新发展和未来趋势。 展示地域文化多样性,运用 AI 技术精心挑选代表中国各地文化特色的景点或文化活动,展现中国丰富多彩的地域文化和旅游资源,增强宣传片的吸引力和传播效果。 融合现代科技,创新表现形式,运用 AI 技术创造新颖的视觉效果和互动体验,使宣传片更加生动、有趣。 讲好中国故事,传递正能量,紧扣“祖国好风光”的核心要求,展示社会主义核心价值观在文旅领域的生动实践,传递积极向上的社会主义文化旅游新风尚。 鼓励互动与参与,通过社交媒体平台鼓励目标观众参与宣传片的互动和讨论,增加宣传片的参与度和影响力。 2. 技术应用方面: 可以参考“0 基础手搓 AI 拍立得”的相关经验,例如通过简化操作流程,提升效率。如用户选择拍摄场景类型并立即拍照,AI 自动识别和分析照片中的内容信息,依据预设场景规则迅速生成符合情境的反馈,避免繁琐的额外操作。 实现图片转成文本的功能,用户上传图片后,大模型根据选择的场景生成与内容相关的文字描述或解说文本,核心在于图片理解和文本整理润色,可应用于生成美食点评、朋友圈发布文案、闲鱼上架示例模版等场景。 实现图片转绘图片的功能,用户上传图片后,大模型按照指定的风格快速生成图像的转绘版本,适应不同风格和场景需求,核心在于图片风格化滤镜,例如生成图片粘土风、图片积木风、图片像素风等。 为简化流程,可以选择 Coze 平台实现零代码版本的工作流,搭建流程时关注上传图片、插件封装等步骤,将本地图片转换为在线 OSS 存储的 URL,将图片理解大模型和图片 OCR 封装为工作流插件,实现便捷调用。
2025-03-01
生成品牌宣传图片
以下是使用即梦 AI 生成用于微信小程序的商家奶茶宣传图的详细步骤: 1. 成品图:这是一组用在奶茶小程序门店上的奶茶宣传图。 2. 制作步骤: 第 1 步:找参考图。 第 2 步:用即梦文生图,生成场景底片。 第 3 步:用画布模式融合产品、logo、文字图片(利用了多种控制能力),然后替换杯子,植入品牌 logo。 第 4 步:用画布模式“局部重绘”等功能做细节的图片美化,用 CapCut Web 版进行文字排版。 生图关键提示词:平面插画,国风,留白,新中式,特写镜头,画面正中间房放着一杯纸杯奶茶,周围摆放着白色茉莉,假山石和青色苔藓,干净背景,具有细腻的笔触。您可以通过即梦 AI 官网(https://jimeng.jianying.com/)了解更多相关信息。
2025-03-01