Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

当前AI应用的内外部环境及趋势

Answer

当前 AI 应用的内外部环境及趋势如下:

  • 技术创新方面:大模型创新架构优化加速涌现,融合迭代成为趋势;Scaling Law 泛化,推理能力成为关键,推动计算和数据变革;视频生成在 AGI 探索中表现突出,空间智能统一虚拟和现实。
  • 应用格局方面:第一轮洗牌结束,聚焦 20 赛道 5 大场景;多领域竞速中运营大于技术,AI 助手竞争激烈;AI+X 赋能类产品发展迅速,原生 AI 爆款难求。
  • 产品趋势方面:多模态上马,Agent 席卷一切,高度个性化需求凸显。
  • 行业渗透方面:数据基础决定初速度,用户需求成为加速度。
  • 创投方面:投融资马太效应明显,国家队出手频率提升。

在具体的行业动态中:

  • AI 音频领域:效果和延迟问题取得突破,难以分辨语音是否由 AI 生成,语音生成延迟降低。
  • 3D 世界生成领域:目前处于初级阶段,新产品未向大众开放,预计明年会有巨大进步。
  • 应用领域:更新主要集中在 AI 搜索、AI 知识库、AI 编程,传统软件增加 AI 功能,未来可能不再有“AI 应用”的单独分类。
  • 融资方面:能拿到钱的不再局限于模型公司,越来越多应用公司受资本青睐。

红杉资本观点认为:

  • 人工智能在客户支持、法律服务和软件工程等行业展示了产品与市场的契合度。
  • 生成式人工智能经历快速增长,但 AI 投资转化为可观回报存在问题。
  • 2024 年将是真正的 AI 应用从“副驾驶”转变为“代理”的一年,未来将更有能力完成更高层次认知任务,计算平衡从预训练转向推理。
  • 目前人工智能公司融资环境不均衡,关键挑战在于提高用户保留率和缩小期望与现实差距,产品与市场的契合度有待进一步提升。
Content generated by AI large model, please carefully verify (powered by aily)

References

《2024年度AI十大趋势报告》发布:技术创新、产品洗牌、行业动态一文看尽

大模型创新:架构优化加速涌现,融合迭代大势所趋Scaling Law泛化:推理能力成皇冠明珠,倒逼计算和数据变革AGI探索:视频生成点燃世界模型,空间智能统⼀虚拟和现实AI应用格局:第⼀轮洗牌结束,聚焦20赛道5大场景AI应用竞争:多领域竞速运营大于技术,AI助手兵家必争AI应用增长:AI+X赋能类产品大干快上,原生AI爆款难求AI产品趋势:多模态上马,Agent席卷⼀切,高度个性化呼之欲出AI智变千行百业:左手变革生产力,右手重塑行业生态AI行业渗透率:数据基础决定初速度,用户需求成为加速度AI创投:投融资马太效应明显,国家队出手频率提升

赛博月刊@24年12月:AI行业大事记

✦AI音频公司都在努力解决两个问题:第一个是效果,如何让AI生成的语音更像人;第二个是延迟,如何用最小的延迟生成语音。✦从当前时间点来看,这两个问题都已突破了临界点。对于第一个问题,我们已经无法分辨一段语音是否由AI生成的了;对于第二个问题,ElevenLabs语音生成延迟已经降到了75ms,小于了人类的思考时间。✦那么明年,当我们接起营销电话的时候,对面是真人的概率还剩多少呢?5.3D✦3D世界生成领域目前还处在初级阶段。这个月发布的新产品,没有一个向大众开放体验。✦不过,基于视频生成领域的经验,我们可以大胆预言:明年,3D世界生成领域会取得巨大的进步和发展。6.应用✦AI应用的更新主要集中AI搜索、AI知识库、AI编程这三个领域。类似NotebookLM这种让人眼前一亮的新形态产品,本月似乎没有。✦也正常。毕竟应用创新不易。✦隐藏的一条暗流是,越来越多传统软件开始增加AI功能。所以,未来可能不再有「AI应用」这个分类,就像现在没有「联网App」这种说法一样。✦毕竟现在大部分软件都会联网,所以未来大部分软件也都会接入AI。7.新闻✦从本月融资新闻来看,能拿到钱的不再局限于模型公司,越来越多应用公司开始受到资本青睐,例如AIPPT,Cursor等。✦恰如上方总结提到的,其他几个领域的模型已经基本迈过了「可进入生产环境」的临界点。随着预训练时代的结束,我们应该会看到越来越多大公司转向应用开发领域。✦所以,留给小开发者们的时间,不多了。

观点:红杉资本 | 2024年:AI的机遇、现状和未来预测

Sonya Huang的演讲深入探讨了人工智能的现状,强调了它在各个行业的影响以及人工智能充分发挥其潜力需要解决的挑战。[heading2]核心观点:[content]AI产品越来越契合市场的需要:人工智能已经在客户支持、法律服务和软件工程等行业展示了产品与市场的契合度。例如,由人工智能驱动的客户服务平台Klarnas通过处理三分之二的客户服务查询,实现了相当于700个全职座席工作的自动化。生成式人工智能正在经历快速增长:第一年的收入约为30亿美元,这一壮举是SaaS市场花了近十年时间才实现的。与以前的技术转变相比,这凸显了人工智能的加速采用和价值创造潜力。AI的$200B问题:虽然公司在AI基础设施上投入了大量资金,仅去年一年就有大约500亿美元用于NVIDIA GPU,但AI应用程序产生的收入仍然相对适中。这就提出了一个问题,即对人工智能的投资何时以及如何转化为可观的回报?预测:Sonya Huang预测,2024年将是真正的AI应用将我们从Copilots(副驾驶)转变为可以作为人类Agents(代理)的一年。之前的人工智能可能更像是一种辅助工具,而未来的人工智能将变成你的同事。她还预计,随着人工智能应用进入生产阶段,人工智能将更有能力完成更高层次的认知任务,如规划和推理,并使计算的平衡从预训练转向推理。融资环境不均衡:目前的人工智能公司的融资环境并不均衡,更关注基础模型而不是应用。对于希望利用人工智能革命的初创公司来说,这既是挑战也是机遇。关键挑战:从长远来看,提高用户保留率和缩小期望与现实之间的差距是人工智能应用取得成功需要解决的关键挑战。目前,与移动应用相比,生成式AI应用的日月活跃用户比率和一个月留存率较低。产品与市场的契合度需要进一步提升:随着基础模型变得更加智能,人工智能的产品与市场的契合度有望加速,从而在各个行业中出现更成功的人工智能应用。

Others are asking
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
多模态应用
以下是一些多模态应用的案例: 1. 电商领域: 拍立淘:由淘宝推出,用户拍照即可识别商品并直接进入购物页面,简化购物搜索步骤。 探一下:支付宝推出的图像搜索引擎,拍照后 AI 能识别并搜索相关商品或信息。 2. 创意领域: 诗歌相机:拍照能生成一首诗,还能打印,将诗意与现代技术结合,并做成硬件形式。 3. 技术平台: 阿里云百炼大模型平台为企业侧提供各种原子级别能力,包括多模态能力。 4. 其他应用场景: 融图:如把图二中的机器人合成到图一的环境中,保持比例、细节、光影和氛围感统一。 小红书风格卡片:使用特定风格生成关于特定内容的卡片。 Logo 转 3D 效果:将图标改成 3D 立体、毛玻璃、毛绒等效果。 示意图转卡通漫画:把示意图转成幼儿园小朋友能看懂的漫画并配中文说明。 遥感理解(图像数据):识别图中的建筑物并用色块标注。 包装图直出效果:生成图片对应的包装侧面效果图。 参考生成海报图:参考小红书封面生成 PPT 设计相关封面图。 三维建模模拟:将图片转化为 3D max 建模渲染界面并加入 UI 界面。 手办三视图:保留人物样貌、神态,制作成特定要求的 3D 手办三视图。
2025-04-18
金融业相关AI应用场景或AI技术介绍
在金融业中,AI 有以下应用场景和技术: 1. 风控和反欺诈:用于识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:评估借款人的信用风险,帮助金融机构做出更好的贷款决策。 3. 投资分析:分析市场数据,辅助投资者做出更明智的投资决策。 4. 客户服务:提供 24/7 的客户服务,回答客户常见问题。 例如,Hebbia 获得近 1 亿美元 B 轮融资,其 AI 技术能够一次处理多达数百万份文档,在短时间内浏览数十亿份包括 PDF、PowerPoint、电子表格和转录内容等,并返回具体答案,主要面向金融服务公司,如对冲基金和投资银行,同时也适用于律师事务所等其他专业领域。
2025-04-15
结构化思维在AI办公里的应用
结构化思维在 AI 办公中有以下应用: 在 Model Context Protocol 托管平台中: 特色功能方面,Sequential Thinking 提供动态和反思性问题解决的结构化思维过程,适用于复杂问题分析和决策。 核心功能分类包括笔记管理工具(如 Simple Notes MCP Server、Bear MCP Server、Notion 集成)、AI 对话工具(如 Autonomous Coder Agent、OpenAI 兼容 API 集成)、Google Workspace 集成(如 Gmail 和 Google Calendar 集成、多账户管理、邮件搜索和撰写、日历事件管理)、学术研究工具(如 Semantic Scholar 集成、PubMed 搜索、arXiv 论文访问、IACR 密码学文献库访问)、AI 数据库管理(如 MySQL Server 集成、知识图谱记忆服务、DuckDB 集成、Airtable 集成)。 面对 AI 幻觉问题时,可使用结构化思考工具辅助判断,如决策矩阵用于面对多个选择时做出更理性的决策,检查清单用于执行复杂任务时确保每个步骤按计划完成,风险评估模型用于做重要决策时分析不同方案的风险并制定应对措施。 在让 AI 像人类一样思考方面,构建逻辑体感轮子,包括逻辑推理功能和内容抽象功能。内容抽象功能能够高效地组织内容,体现结构化思维,通过心智单元的抽象思维高效地组织复杂任务。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出10个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍: 1. 人才招聘与筛选 What:利用 AI 技术对求职者的简历进行自动筛选和分析,评估其与岗位的匹配度。 Why:节省 HR 大量的时间和精力,提高招聘效率和准确性。 How:通过自然语言处理和机器学习算法,训练模型识别关键信息和技能。 2. 员工培训与发展 What:根据员工的技能水平和职业发展目标,定制个性化的培训计划。 Why:提升员工的能力和绩效,增强员工对企业的忠诚度。 How:利用大数据分析员工的工作表现和学习需求,推荐相关课程和学习资源。 3. 薪酬福利管理 What:运用 AI 预测市场薪酬趋势,为企业制定合理的薪酬策略。 Why:保持企业薪酬的竞争力,吸引和留住优秀人才。 How:收集和分析行业薪酬数据,结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What:借助 AI 实时监测员工的工作表现,提供客观的绩效评估。 Why:减少人为偏差,确保评估的公正性和准确性。 How:利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What:通过 AI 分析员工的情绪和满意度,及时发现问题并解决。 Why:营造良好的工作氛围,提高员工的工作积极性和创造力。 How:使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What:利用 AI 分析企业的业务流程和人员配置,提供组织架构调整建议。 Why:提高企业的运营效率和灵活性,适应市场变化。 How:基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What:根据企业的战略目标和业务发展预测人力资源需求。 Why:提前做好人才储备和招聘计划,保障企业的正常运营。 How:运用数据分析和预测模型进行规划。 8. 企业文化传播 What:使用 AI 生成个性化的企业文化宣传内容,提高传播效果。 Why:增强员工对企业文化的认同感和归属感。 How:利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What:在 HR 服务中引入 AI 客服,解答员工常见问题。 Why:快速响应员工需求,提高服务质量。 How:训练智能客服模型,涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What:利用 AI 对人才库进行分类和更新,提高人才库的利用效率。 Why:方便快速找到合适的人才,降低招聘成本。 How:运用数据挖掘和分类算法进行管理。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出3-5个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍: 场景一:AI 在企业招聘中的应用 What:利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why:能够快速处理大量简历,提高招聘效率和准确性,节省人力和时间成本,同时更精准地找到符合岗位需求的人才。 How:通过引入相关的 AI 招聘软件,与企业现有的招聘系统集成,对简历进行关键词提取和分析,利用机器学习算法进行人才匹配,并通过视频面试中的语音和表情分析辅助评估候选人。 场景二:AI 助力个性化人力资源管理 What:根据员工的个人特点和工作表现,提供个性化的培训计划、职业发展建议和绩效评估。 Why:能够充分发挥员工的潜力,提高员工满意度和忠诚度,促进企业的长期发展。 How:收集员工的工作数据、学习记录和绩效表现等信息,运用 AI 算法进行分析和预测,为员工制定专属的发展方案,并通过移动应用或内部系统向员工推送相关建议和培训课程。 场景三:AI 打造无人值守的 HR 平台 What:实现 HR 业务的自动化处理,如员工请假审批、薪酬计算和福利发放等。 Why:减少人工操作的错误和繁琐流程,提高 HR 工作的效率和准确性,使 HR 人员能够专注于更有价值的战略工作。 How:整合企业内部的各种 HR 系统和数据,利用 RPA 和 AI 技术实现流程的自动化,同时建立监控和预警机制,确保平台的稳定运行。
2025-04-14
飞书+AI的应用案例
以下是飞书+AI的应用案例: 在企业运营方面,包括日常办公文档材料撰写整理、营销对话机器人、市场分析、销售策略咨询,以及法律文书起草、案例分析、法律条文梳理和人力资源简历筛选、预招聘、员工培训等。 在教育领域,协助评估学生学习情况,为职业规划提供建议,针对学生情况以及兴趣定制化学习内容,论文初稿搭建及论文审核,帮助低收入国家/家庭通过 GPT 获得平等的教育资源。 在游戏/媒体行业,有定制化游戏、动态生成 NPC 互动、自定义剧情、开放式结局,出海文案内容生成、语言翻译及辅助广告投放和运营,数字虚拟人直播,游戏平台代码重构,AI 自动生成副本。 在零售/电商领域,包括舆情、投诉、突发事件监测及分析,品牌营销内容撰写及投放,自动化库存管理,自动生成或完成 SKU 类别选择、数量和价格分配,以及客户购物趋势分析及洞察。 在金融/保险行业,有个人金融理财顾问、贷款信息摘要及初始批复、识别并检测欺诈活动风险、客服中心分析及内容洞。 线下活动方面: 活动宣传:用飞书文档制作活动宣传页面,用 AI 快速制作海报,用 GPTs 写人员分配和主持人台词,活动从策划到开始仅用 2 天时间。 活动报名:使用飞书的多维表格完成报名表及数据统计。 活动过程:大家在线协同,一起编辑文档,演示时共同展示一个文档。 活动记录:有相关的记录页面。 办活动的初衷是宣扬 AI 不只是降本增效的工具,还有很多乐趣等待挖掘,例如大理户外圆桌讨论、清迈的 AI 逛古城、杭州的 AI 玄学小组。
2025-04-13
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14
我应该如何开始0-1学习AI绘画?当前最好用的工具是什么?
以下是一些关于 0 1 学习 AI 绘画的建议和当前好用的工具: 您可以通过观看相关视频教程来入门,比如: “10 分钟教会你如何手把手撰写提示语,全网最细 ChatGPT 对话指南,保姆级教程!” ,视频使用到的 AI 工具包括 AI 提示语,平台链接: 。 “零基础 AI 绘画入门,Midjourney、Stable Diffusion,小白速成,一站式使用和最强入门教程” ,视频使用到的 AI 工具包括 AI 提示语,一个无需魔法上网的 AI 绘画工具,平台链接: 。 目前,Midjourney 和 Stable Diffusion 是比较受欢迎的 AI 绘画工具。
2025-04-10
当前所有大模型的能力排行
目前大模型的能力排行情况较为复杂,以下为您提供部分相关信息: 8 月正式上线的国内大模型包括北京的百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ ,上海的商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 。在聊天状态下,能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax ;目前不能进行自然语言交流的有昇思、书生;受限制使用的有 MiniMax 。特色功能方面,昇思能生图,MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。 2023 年度中文大模型基准测评报告显示,在语言与知识的测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型也表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 13 位,较为接近 GPT4。在开源模型中,零一万物的 Yi34BChat、阿里云的 Qwen72BChat、百川智能的 Baichuan213BChat 取得了不错的成绩,均超过了 50 分,分列国内模型的 13 名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型。 关于大模型的评测榜单还有: Open LLM Leaderboard:地址 ,由 HuggingFace 组织,目前已评估了较多主流的开源 LLM 模型,评估主要包括 AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA 四个数据集上的表现,主要以英文为主。 chinesellmbenchmark:地址 ,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b 等开源大模型,多维度能力评测,不仅提供能力评分排行榜,也提供所有模型的原始输出结果。 SafetyPrompts:地址 ,由清华大学提出,是一个关于 LLM 安全评测 benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的 prompt。
2025-03-28
当前效果比较好的对口型,换脸,配音AI应用
以下是一些效果较好的对口型、换脸、配音的 AI 应用: Runway:网址为 https://runwayml.com ,有网页和 app 方便使用。工具教程: 即梦:网址为 https://dreamina.jianying.com/ ,是剪映旗下产品,生成 3 秒,动作幅度有很大升级,有最新 S 模型和 P 模型。工具教程: Minimax 海螺 AI:网址为 https://hailuoai.video/ ,非常听话,语义理解能力非常强。视频模型: Kling:网址为 kling.kuaishou.com ,支持运动笔刷,1.5 模型可以直出 1080P30 帧视频。视频模型: Vidu:网址为 https://www.vidu.studio/ haiper:网址为 https://app.haiper.ai/ Pika:网址为 https://pika.art/ ,可控性强,可以对嘴型,可配音。工具教程: 智谱清影:网址为 https://chatglm.cn/video ,开源了,可以自己部署 cogvideo。工具教程: PixVerse:网址为 https://pixverse.ai/ ,人少不怎么排队,还有换脸功能。工具教程: 通义万相:网址为 https://tongyi.aliyun.com/wanxiang/ ,大幅度运动很强。 luma:网址为 https://lumalabs.ai/ 即梦 AI 对口型的相关教程: 功能介绍:「对口型」是即梦 AI「视频生成」中的二次编辑功能,现支持中文、英文配音。目前主要针对写实/偏真实风格化人物的口型及配音生成,为用户的创作提供更多视听信息传达的能力。可上传包含完整人物面容的图片,进行视频生成,待视频生成完成后,点击预览视频下的「对口型」按钮,输入台词并选择音色,或上传配音文件进行对口型效果生成。目前支持语言:中文(全部音色),英文(推荐「超拟真」内的音色) 技巧:上传写实/近写实的人物单人图片,目前不支持多人物图片对口型;输入 prompt,选择参数,点击生成视频,尽量确保人物无形变等扭曲效果;确保人物生成的情绪与希望匹配的口型内容匹配;在生成的视频下方,点击【对口型】;输入或上传需要配音的内容,注意视频生成时长和配音试听时长尽量对齐,点击生成。先对口型,再超分补帧 关于 AI 短片的相关信息: AI 图片与视频生成的新能力与应用: 图片编辑功能:Midjourney 新增本地图片上传编辑入口,可进行局部重绘、扩图和风格转换等操作。 视频生成模型:解梦新出 p 模型和 s 模型,p 模型支持人物多动作和变焦,易改变画风;s 模型生成速度快、积分消耗少,能保持原始画风但语义理解有限。 特效玩法:皮卡和 Pixforce 有特效玩法,如人物爆炸、漂浮等,可用于优化视频效果。 视频转会:Runway 的 GN3 模型支持上传视频并转换风格,可用于实现多元宇宙等风格穿梭的片子,也能将简单场景转换为难以拍摄的场景。 视频生成中的角色生视频技术: 角色生视频突破关键帧限制:当前视频生成多依赖关键帧,而角色生视频不再是关键帧输入,而是直接传入角色本身,可更灵活生成视频,如让小男孩从左跑到右。 多角色参考生成创意视频:支持上传多张图,最多三张,可将人物、衣服、背景等元素融合生成视频,如小男孩穿裙子在宇宙飞。 角色对口型技术:如吉梦的对口型技术,支持文本朗诵和本地配音,能根据输入生成人物开口讲话的视频,但有上传人物长相等限制。 不同工具的角色生视频效果:对比了吉梦、Runway 等工具的角色生视频效果,如 Runway 的 x one 在身体、头部、眼神动态上表现更好。 角色生视频的应用场景:可用于规避机器人念台词的尴尬瞬间,让机器人有更丰富的表情和神态。 角色生视频的未来发展:未来视频生成将摆脱纯关键帧方式,采用多模态信息输入,如定义角色和场景的三视图等。
2025-03-25
transformer是通往AGI的必经之路吗?什么是世界模型,当前有哪些进展
Transformer 并非通往 AGI 的必经之路。在已知的 token space 中,Transformer 符合一些条件,但在更通用的场景中不太符合。AI 本质包含一堆 scaling law,一个值得被 scale up 的架构是基础,且架构要支持不断加入更多数据。当前在数据方面,如限定问题的数据生成有进展,但通用问题还没有完全的解法。 世界模型方面,目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统,其逻辑受指向描述变化,如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构,都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构,以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单,需要探寻 RL 与 LLM 的本质普遍性。
2025-03-16
AI应用赛道中top应用介绍,实现的功能和应用场景,产品Launch时间:AIGC功能 Launch时间、当前月活用户数、营收利润、一年成本投入、市场占有率、目前融资金额及估值、创始团队介绍、公司员工规模、所属国家、用户来源、用户来自于哪些国家、用户profile、转化率、ROI等等, 盈利模式,优劣势与未来发展趋势。
以下是关于 AI 应用赛道的相关介绍: 应用场景:涵盖医疗、制造业、金融风控、消费端个性化服务、办公、农业、能源优化、娱乐等领域。 关键技术: 1. 包括大语言模型作为中枢神经系统,记忆模块实现长期和短期记忆,以及规划能力中的目标设定、任务拆解、生成策略、执行与反馈、资源管理和多智能体协同。 2. 强化学习用于环境感知和决策调整,多模态融合涉及多种数据类型,低成本训练是考虑成本的重要因素。 智能体特征:包括自主性、交互性和适应性,如通过自我对弈和博弈不断进化,在金融风控领域利用大量数据提升准确率。 AI 技术路线:从有语言能力的 AI 到有推理能力,再到能使用工具、发明创新以及形成组织,共五级。 智能体框架类型:分为任务驱动型、多智能体协作、强化学习型、具身智能体、应用型智能体,每种类型都有代表性框架。 智能体与大模型的关系:大模型是中枢和基石,智能体是行动引擎,两者协同演进,智能体产生的数据可反哺大模型。 未来趋势:智能体可能在中小企业中更具效益,人机协作中人类成为监督角色,但存在算力成本、伦理风险、技术瓶颈等挑战。 B 端变现与创业方向: 1. B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。 2. 自媒体创业:视频号等平台尚有蓝海空间,需具备内容创新和差异化,内容成本低且更新迭代快。 3. 游戏创业:个人或团队可做轻量化游戏,结合 AI 技术,满足放松和社交需求,专注垂类赛道,避免与大厂竞争。 4. 影视创业:25 年将是拐点,更多内容会采用 AI 技术,如哪吒 2 因前期规划未用 AI 技术。 5. 广告营销创业:重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: 1. 创业难点:创业对创业者综合能力要求极高,找到志同道合且能力互补的战友是创业前期最难的事。 2. AI 虚拟人发展:从早期以首位为核心的宅文化虚拟偶像,到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人,其发展历程不断演进。 3. 虚拟人产业链:包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。 4. 未来创业机遇:AI 虚拟人是未来 310 年 Web 3.0 的风口,提前布局未来有潜力的赛道,准备好迎接机遇。 相关案例和产品信息: 1. 10 月 26 日,AI 翻译和口型匹配技术在视频制作中的应用逐渐流行,公司如 Captions、HeyGen 和 Verbalate 通过 AI 生成字幕、配音和口型匹配等功能,帮助用户轻松实现视频翻译本地化。 2. 10 月 25 日,Perplexity 最新估值约为 5 亿美元,较 3 月宣布的 1.5 亿美元估值上涨 300%以上,当前的付费用户数量达到了 1.5 万人,截止本月,Perplexity 的 ARR 达到 300 万美元,最新估值约为 ARR 的 150 倍。 3. 《100 个有意思的 AI 应用》由国盛证券出品,分为基于 LLM 自然语言能力的对话、写作、阅读、分析等应用;多模态技术持续发展,图像、视频、音频、3D 等 AIGC 应用;企业级应用等。
2025-03-14