Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

9月份AI技术有哪些进展

Answer

以下是 9 月份 AI 技术的一些进展:

  1. 9 月 AI 圈内发生了多起趣事和事件,包括 Cursor 编程软件的爆红、Runway 删除开源的 Stable Diffusion v1.5、国产 AI Bot 类产品留存率不足 1%等。
  2. 众多新模型和功能接连发布,如 DeepSeek、OpenAI 和 Meta 有新的进展,以及 AI 编程工具不断竞争。
  3. 行业关注度持续上升,尤其是 Cursor 的成功引发广泛讨论,显示 AI 编程工具仍在快速发展。
  4. 吴恩达深入探讨了 AI 技术的最新发展和未来方向,重点关注 Agentic Workflow、模型架构、推理速度和基础设施。他介绍了 Agentic Workflow 的优势,强调 AI 能够自主回顾和修复错误,提高系统稳定性。以斯坦福大学的演示为例,AI Agent 在网络搜索失败时自动切换到维基百科,展示了其适应性。
  5. 关于模型架构,吴恩达认为现有的 Transformer 模型已经表现良好,虽然新架构值得研究,但不是必需的。他强调提高快速推理和生成控制能力更为关键。
  6. 推理速度被视为当前 AI 应用的主要瓶颈。吴恩达指出,显著提高推理速度(如从 25 分钟缩短到 2 分钟)将极大改善用户体验,推动 AI 应用发展。
  7. 在讨论 AI 基础设施时,吴恩达认同增加训练投资可能提高模型效率的观点。他提到一些公司正在开发高效的 token 生成技术,并提出了训练和推理基础设施是否应分离的问题,暗示这可能需要新的架构支持。
Content generated by AI large model, please carefully verify (powered by aily)

References

4.4 历史更新

[title]4.4历史更新[heading2]2024年9月[heading3]9月30日《[9月:AI圈的乌龙、趣事与新闻](https://mp.weixin.qq.com/s/xl0b_dxwswnSDKZ2M-TzUA)》作者南乔River,9月AI圈内发生了多起趣事和事件,包括Cursor编程软件的爆红、Runway删除开源的Stable Diffusion v1.5、国产AI Bot类产品留存率不足1%等。众多新模型和功能接连发布,如DeepSeek、OpenAI和Meta的进展,以及AI编程工具的不断竞争。行业关注度持续上升,尤其是Cursor的成功引发广泛讨论,显示AI编程工具仍在快速发展。

通往 AGI 之路

[title]通往AGI之路[heading1]?近7日更新日志[heading3]9月30日《[9月:AI圈的乌龙、趣事与新闻](https://mp.weixin.qq.com/s/xl0b_dxwswnSDKZ2M-TzUA)》作者南乔River,9月AI圈内发生了多起趣事和事件,包括Cursor编程软件的爆红、Runway删除开源的Stable Diffusion v1.5、国产AI Bot类产品留存率不足1%等。众多新模型和功能接连发布,如DeepSeek、OpenAI和Meta的进展,以及AI编程工具的不断竞争。行业关注度持续上升,尤其是Cursor的成功引发广泛讨论,显示AI编程工具仍在快速发展。

课代表笔记:吴恩达 & 李沐对AI的见解(8月总结版)

1.吴恩达深入探讨了AI技术的最新发展和未来方向,重点关注Agentic Workflow、模型架构、推理速度和基础设施。他介绍了Agentic Workflow的优势,强调AI能够自主回顾和修复错误,提高系统稳定性。以斯坦福大学的演示为例,AI Agent在网络搜索失败时自动切换到维基百科,展示了其适应性。2.关于模型架构,吴恩达认为现有的Transformer模型已经表现良好,虽然新架构值得研究,但不是必需的。他强调提高快速推理和生成控制能力更为关键。3.推理速度被视为当前AI应用的主要瓶颈。吴恩达指出,显著提高推理速度(如从25分钟缩短到2分钟)将极大改善用户体验,推动AI应用发展。4.在讨论AI基础设施时,吴恩达认同增加训练投资可能提高模型效率的观点。他提到一些公司正在开发高效的token生成技术,并提出了训练和推理基础设施是否应分离的问题,暗示这可能需要新的架构支持。

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
目前deepseek的进展
目前 DeepSeek 的进展如下: 持续 5 天的“开源周”已进行到第 3 天。周一开源了专为英伟达 Hopper GPU 打造的高效 MLA 解码内核 FlashMLA,已正式投产使用。周二开源了专为混合专家系统(MoE)和专家并行(EP)设计的通信库 DeepEP。周三开源了支持稠密和 MoE 模型的 FP8 GEMM(通用矩阵乘法)计算库 DeepGEMM,可为 V3/R1 的训练和推理提供强大支持。总的来说,英伟达和 DeepSeek 开源的内容都是通过对英伟达 GPU 和集群的优化,来推动 AI 模型的高效计算和部署。 华尔街分析师对 DeepSeek 的反应:展示出媲美领先 AI 产品性能的模型,但成本仅为其一小部分,在全球主要市场的 App Store 登顶。Jefferies 警告其技术可能打破资本开支狂热,Citi 对其技术突破提出质疑。高盛预测其可能改变科技巨头与初创公司的竞争格局,降低 AI 行业进入门槛。 DeepSeek 的实际使用体验:在文字能力上表现突出,尤其在中文场景中高度符合日常、写作习惯,但在专业论文总结方面稍弱。数学能力经过优化,表现不错;编程能力略逊于 GPT,据用户反馈。GRPO 算法替代传统 PPO,降低价值函数估计难度,提高语言评价场景的灵活性与训练速度。
2025-04-01
上一周 ai有什么新的进展
以下是上一周 AI 的一些新进展: 应用形态的重构方面,AI Agent 取得突破,为机器人赋予自主行动能力,AI 编程工具的进展或预示人机协作模式的变革。 2 月,OpenAI 发布视频生成模型 Sora,实现高质量文本生成视频,开创 AI 视频生成新纪元。 3 月,Suno 发布 V3 版本,AI 音乐生成进入生产力可用状态。 4 月,Meta 发布高性能开源大模型 Llama3,降低了 AI 技术的准入门槛。 5 月,GPT4 发布,RayBan 与 Meta 合作的智能眼镜销量突破百万,字节上线即梦 AI。 6 月,快手发布可灵,Apple Intelligence 发布。 9 月,OpenAI 发布 o1 预览版。 10 月,Rosetta 和 AlphaFold 算法的研发者因在蛋白质结构设计和预测中的突破性贡献获得诺贝尔化学奖,约翰·霍普菲尔德和杰弗里·辛顿因人工神经网络和深度学习的开创性贡献获诺贝尔物理学奖,Anthropic 大模型 Claude 3.5 Sonnet 获得“computer use”功能。 12 月,OpenAI 发布 o3 系列模型。 此外,还有一些关于 AI 的讨论和话题,如把 350 万条 Midjourney 提示词放进一张可视化图里,2 套权威的 AI 术语表,天工新功能的定位靠近元宇宙,NotebookLM 与 AI 播客的关系,Bob 类似于更轻巧的能选多种大模型的桌面端应用“豆包”,Monica.im 的发展,物圆 TreLoop 的情况,对 AGI 距离的讨论,Arc 浏览器的状态,李开复关于 AI 应用爆发和 AGI 的观点,李继刚的 Prompt 玩法,OpenAI 研究副总裁离职,15 岁开发者的开源项目被收购,关于 AI 编程效率的讨论等。
2025-03-17
请推荐最新的AI相关进展新闻
以下是一些最新的 AI 相关进展新闻: 在医疗领域: ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究,AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。例如,AI 提前三年诊断胰腺癌;两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因;AI 帮助抗衰老,筛查出高效的药物候选物;利用 AI 寻找阿尔兹海默症的治疗方法;使用神经网络分析患者体液中的生物标志物以早期诊断帕金森。 在技术应用方面: AI Agent 的突破让行业看到更多可能性,如机器人获得自主行动能力。AI 编程工具的进展预示着人机协作模式的变革。 2024 年 AI 关键进展时间线包括:2 月 OpenAI 发布视频生成模型 Sora;3 月 Suno 发布 V3 版本;4 月 Meta 发布高性能开源大模型 Llama3;5 月 GPT4 发布等。 赛博月刊显示,AI 音频公司在效果和延迟方面取得突破,3D 世界生成领域处于初级阶段但有望在明年取得巨大进步,AI 应用的更新集中在搜索、知识库、编程等领域,越来越多应用公司受到资本青睐。
2025-03-16
transformer是通往AGI的必经之路吗?什么是世界模型,当前有哪些进展
Transformer 并非通往 AGI 的必经之路。在已知的 token space 中,Transformer 符合一些条件,但在更通用的场景中不太符合。AI 本质包含一堆 scaling law,一个值得被 scale up 的架构是基础,且架构要支持不断加入更多数据。当前在数据方面,如限定问题的数据生成有进展,但通用问题还没有完全的解法。 世界模型方面,目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统,其逻辑受指向描述变化,如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构,都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构,以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单,需要探寻 RL 与 LLM 的本质普遍性。
2025-03-16
请帮我整理关于AI最新进展和应用的介绍内容
以下是关于 AI 最新进展和应用的介绍: 医疗领域: ChatGPT 和 Google Bard 等技术极大加速了医疗健康生物制药的研究。AI 在抗癌、抗衰老、早期疾病防治等方面发挥着重要作用。 提前三年诊断胰腺癌。 两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因。 帮助抗衰老,筛查超过 80 万种化合物发现高效药物候选物。 用于寻找阿尔兹海默症的治疗方法。 帮助早期诊断帕金森。 法律法规方面: AI 在许多领域已经取得重大进展和效率提升,如交通监控、银行账户欺诈检测、工业大规模安全关键实践等。 AI 具有巨大的潜力来改变社会和经济,可能产生与电力或互联网相当的影响。 大型语言模型等技术进步带来了变革性的发展机会。 基础通识课方面: 流式训练方式提升了训练速度和质量,基于 Transformer 模型进行流匹配优于扩大模型。 有多种 AI 生成工具,如能创作音乐的 so no 音频生成工具、创建个人 AI 智能体的豆包、生成播客的 Notebook LN。 端侧大模型能部署在手机端等设备,通过压缩解决存储和性能问题。 AI 工程平台对模型和应用有要求,如 define 平台,coach 平台有新版本模板和众多插件工具,还有工作流。 有魔搭社区等为大模型提供服务的平台。 预告了 AI 建站,需安装基础软件帮助文科生和无基础人员建站。
2025-03-15
新手如何更好使用该网站,主要了解人工智能或者AGI进展,主流软件的学习和应用
对于新手想要更好地使用该网站来了解人工智能或 AGI 进展以及主流软件的学习和应用,以下是一些相关内容: AE 软件: 基本功能:可通过图层软件抠元素加插件做特效,如利用 auto field 自动填充工具,轨道遮罩功能让图层按特定形状变化等。 与 AI 结合运用:如用 runway 生成烟花爆炸素材,结合 AE 的图层混合模式、遮罩等功能实现特效可控的画面。 其他应用:用内容识别填充功能处理视频画面,如抹掉入镜的人;从素材网站获取粒子素材为画面添加氛围感。 学习路径:可在 B 站找丰富的 AE 软件入门课程自学,也可从包图网下载工程文件学习。 学习方法:通过拆解视频、留意路边广告特效、按层级逻辑思考画面运动来学习 AE,还可参考模板。 与 AI 的关系:AI 出现后,AE 使用减少,有些动效可用 AI 完成。 在短剧中的应用:在火焰、文字、光线等方面有少量应用。 AI 相关技术与活动: AI 音乐创作:通过输入更高级的词汇与 AI 音乐对话能产生更好效果,有 AI 音乐的版块、挑战、分享会和教程,可通过王贝加入 AI 音乐社区。 数字人语音合成:介绍了声音克隆技术,提到了微软、阿里等的相关成果,常用的是 JPT service。 Config UI 的应用:能降低成本、提高效率,在图书出版、引流等方面有应用,岗位稀缺,社区有相关共学课程。 社区共创项目:包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等活动。 作业与报名:作业是询问对 AI 方向的兴趣和想做的项目,活动报名可通过填写名字和申请新增学校参与。 线下寄送物料组织活动:会给大家寄送线下活动物料,在学校内组织。 AI 春晚即将开始:去年 300 人 30 天共创了 AI 春晚,今年的也即将开始,可报名参与多种岗位。 AIPO 活动及相关挑战:10 月 20 日的 AIPO 活动,可提前构思展示项目,有会话和视频相关的挑战赛。 共学活动与技能提升:接下来 10 天有从零基础到建站等内容的讲解,回放会放在链接里,可先从练习提示词入手。 硬件机器人材料购买:若搞硬件机器人,部分材料需尽快购买。 自媒体发布与流量扶持:在小红书发布活动内容带特定标签有流量扶持,作品也可发布在 GitHub 等平台。 活动奖项与历史玩法:设最佳创业奖和最佳投资奖各四个,有线下摆摊展示交流、IPO 路演等玩法,之前在多个城市举办过 AI 切磋大会。 工具使用与新大赛预告:可使用多种 AI 工具,新的大赛即将开启,有百万奖金池,相关动态会在社区活动栏目公布。 AI 音乐和数字人语音合成: AI 音乐方面,提到草爷、格林 king、狗哥带大家入门,有相关课程与教程,且淘宝上有套壳工具抄袭。社区伙伴做的 AI 音乐专辑不错。 数字人语音合成部分提到声音克隆,有新的声音克隆且音质很不错。 提到了微软新出的成果、阿里的 Cozy voice(指出其泛化能力不强)、大家常用的 GPT solve it、刚举办的 AI 3D 活动。 以小田的 config UI 基础工作流一日谈展开,讲述了多个案例,如许建拍摄场景图成本降低,郭佑萌在图书出版行业提升效率,影楼可进行换装等操作,文旅文创场景有有趣的合影生成方式,还提到该工作流岗位稀缺且社区有课程可供学习。 AJ 介绍平台资源,包括共学课程、专栏报告、数据等,还提及就业创业及一些企业专栏的内容。
2025-02-28
5月份AI产品流量趋势
以下是关于 5 月份 AI 产品流量趋势的相关信息: 生成式 AI 季度数据报告涵盖 2024 年 1 至 3 月。GenAI summit 将于 5 月 29 日在旧金山艺术宫举办,为期三天。 总体趋势方面,人工智能行业正在快速增长,尽管在 5 月份左右的峰值之后出现了 12 亿的流量回调,但仍有望继续增长。 提供了不同赛道和竞争情况的相关数据,如天花板潜力 TAM、月平均增速、原生产品占比、马太效应、网络效应、大厂入局情况和技术门槛等。 介绍了一些头部的 AI 产品,如 ChatGPT 保持领先,Claude、Gemini 快速追赶,国内企业 Kimi 3 月快速起量进入流量前 10。 您还可以通过 aiwatch.ai 网址、Toolify 查看更多详细数据。 需要注意的是,部分产品数据保密并受到版权法保护。
2025-03-24
AI今年3月份有什么大事件
以下是今年 3 月份 AI 领域的一些大事件: 1. Google 的 Bard 在 3 月下旬推出,虽有地域限制,但未来可期。 2. 3 月 23 日,Tome 推出了第一个基于文档的 AI 演示工具,该工具基于 GPT4,能够将文档转换成演示文稿、叙述和故事。结合 Tome 自研的渲染系统,具有流畅的生成过程和竞争力。 3. 上周五,Gamma 推出了自己的文生演示文稿工具,工作流顺畅。
2024-12-16
能画技术路线图的prompt
以下是关于能画技术路线图的 prompt 相关内容: Midjourney Bot 的 Prompt 类型: 基本 Prompts:可以只是一个单词、短语或表情符号。 高级 Prompts:包括一个或多个图片 URL、多个文本短语以及一个或多个参数。其中,图片 URL 始终位于 prompt 的最前面,以影响完成结果的风格和内容。提示文字是对希望生成的图像的文本描述,精心编写的提示有助于生成惊艳的图像。参数可以改变生成图片的方式,需放在提示语的末尾。 ComfyUI Flux 与 runway 制作绘画视频: 生成图片:提示词告诉 flux 生成一张技术草图,如 CAD。 绘制的视频:在 runway 里面,使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧。 草图上色:使用 flux 的 controlNet,depth 固定,目前 Union 版本不建议权重调太高,结束时间也需注意。 Prompt engineering(提示工程): 开发测试用例:定义任务和成功标准后,创建多样化的测试用例,包括典型示例和边界情况,以确保提示具有鲁棒性。 设计初步提示:制定初步提示,概述任务定义、良好响应的特征及必要上下文,添加规范输入和输出的示例供参考。 根据测试用例测试提示:使用初步提示将测试用例输入,评估模型响应与预期输出和成功标准的一致性,使用一致的评分标准进行系统性的性能评估。
2025-04-19
金融业相关AI应用场景或AI技术介绍
在金融业中,AI 有以下应用场景和技术: 1. 风控和反欺诈:用于识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:评估借款人的信用风险,帮助金融机构做出更好的贷款决策。 3. 投资分析:分析市场数据,辅助投资者做出更明智的投资决策。 4. 客户服务:提供 24/7 的客户服务,回答客户常见问题。 例如,Hebbia 获得近 1 亿美元 B 轮融资,其 AI 技术能够一次处理多达数百万份文档,在短时间内浏览数十亿份包括 PDF、PowerPoint、电子表格和转录内容等,并返回具体答案,主要面向金融服务公司,如对冲基金和投资银行,同时也适用于律师事务所等其他专业领域。
2025-04-15
stable diffusion底层技术
Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,其原理包括以下几个步骤: 1. 使用新颖的文本编码器(OpenCLIP),由 LAION 开发并得到 Stability AI 的支持,将文本输入转换为向量表示,以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型,将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型,能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中,利用文本向量和噪声图像作为条件输入,给出每一步变换的概率分布,根据文本指导噪声图像向目标图像收敛,并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器(Upscaler Diffusion Model),将生成的低分辨率图像放大到更高分辨率,从低分辨率图像中恢复细节信息并增强图像质量。 此外,ComfyUI 的底层依赖 Stable Diffusion,去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构,能处理多尺度特征表示。在 ComfyUI 中,去噪的每个步骤通过模型推理模块实现,调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要,允许模型在生成过程中融入文本提示、图像、语义信息等条件,在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分,能在不同尺度之间共享特征,在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制,在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点: 1. 可以处理任意领域和主题的文本输入,并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像,且保持良好的视觉效果和真实感。 它还可以进行深度引导和结构保留的图像转换和合成,例如根据输入图片推断出深度信息,并利用深度信息和文本条件生成新图片。
2025-04-15
学习AI怎么在工作中使用,提高工作效率,有必要从技术原理开始学习吗
学习 AI 在工作中使用以提高工作效率,不一定需要从技术原理开始学习。以下是一些相关的案例和建议: 案例一:GPT4VAct 是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。其应用场景在于以后互联网项目产品的原型设计自动化生成,能使生成效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。它基于 AI 学习模型,通过视觉理解技术识别网页元素,能执行点击和输入字符操作等,但目前存在一些功能尚未支持,如处理视觉信息程度有限、不支持输入特殊键码等。 案例二:对于教师来说,有专门的 AI 减负指南。例如“AI 基础工作坊用 AI 刷新你的工作流”,从理解以 GPT 为代表的 AI 工作原理开始,了解其优势短板,学习写好提示词以获得高质量内容,并基于一线教师工作场景分享优秀提示词与 AI 工具,帮助解决日常工作中的常见问题,提高工作效率。 建议:您可以根据自身工作的具体需求和特点,有针对性地选择学习方向。如果您只是想快速应用 AI 提高工作效率,可以先从了解常见的 AI 工具和应用场景入手,掌握基本的操作和提示词编写技巧。但如果您希望更深入地理解和优化 AI 在工作中的应用,了解技术原理会有一定帮助。
2025-04-15
AI相关的最前沿技术网站
以下是一些 AI 相关的前沿技术网站: 1. OpenAI:提供了诸如 GPT 等先进的语言模型和相关技术。 2. Google AI:涵盖了多种 AI 领域的研究成果和应用。 3. Microsoft Research:在 AI 方面有众多创新研究和技术展示。 此外,WaytoAGI 也是一个致力于人工智能学习的中文知识库和社区平台,汇集了上千个人工智能网站和工具,提供最新的 AI 工具、应用、智能体和行业资讯。在没有任何推广的情况下,WaytoAGI 两年时间已有超过 300 万用户和超千万次的访问量,其目标是让每个人的学习过程少走弯路,让更多的人因 AI 而强大。目前合作过的公司/产品包括阿里云、通义千问、淘宝、智谱、支付宝等。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14