Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

AI的技术历史和发展方向，目前最前沿的技术点有哪些，请以列表的方式梳理；并给出偏向技术研究以及应用的个人的学习路径

Answer

AI技术的发展历程和前沿技术点可以概括如下:

AI技术发展历程

早期阶段(1950s-1960s): 专家系统、博弈论、机器学习初步理论
知识驱动时期(1970s-1980s): 专家系统、知识表示、自动推理
统计学习时期(1990s-2000s): 机器学习算法(决策树、支持向量机、贝叶斯方法等)
深度学习时期(2010s-至今): 深度神经网络、卷积神经网络、循环神经网络等

当前AI前沿技术点

大模型(Large Language Models): GPT、Gemini等
多模态AI: 视觉-语言模型(CLIP、Stable Diffusion)、多模态融合
自监督学习: 自监督预训练、对比学习、掩码语言模型等
小样本学习: 元学习、一次学习、提示学习等
可解释AI: 模型可解释性、因果推理、符号推理等
机器人学: 强化学习、运动规划、人机交互等
量子AI: 量子机器学习、量子神经网络等
AI芯片和硬件加速

学习路径

偏向技术研究方向

数学基础: 线性代数、概率论、优化理论等
机器学习基础: 监督学习、无监督学习、强化学习等
深度学习: 神经网络、卷积网络、递归网络、注意力机制等
自然语言处理: 语言模型、文本分类、机器翻译等
计算机视觉: 图像分类、目标检测、语义分割等
前沿领域: 大模型、多模态AI、自监督学习、小样本学习等
科研实践: 论文阅读、模型实现、实验设计等

偏向应用方向

编程基础: Python、C++等
机器学习基础: 监督学习、无监督学习等
深度学习框架: TensorFlow、PyTorch等
应用领域: 自然语言处理、计算机视觉、推荐系统等
数据处理: 数据采集、清洗、特征工程等
模型部署: 模型优化、模型服务等
行业实践: 项目实战、案例分析等

无论是技术研究还是应用实践,数学和编程基础都是必不可少的。同时需要紧跟前沿技术发展动态,并结合实际问题进行实践锻炼。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：新手如何学习 AI？

写给不会代码的你：20分钟上手 Python + AI

写给不会代码的你：20分钟上手 Python + AI

Others are asking

能画技术路线图的prompt

以下是关于能画技术路线图的 prompt 相关内容： Midjourney Bot 的 Prompt 类型：基本 Prompts：可以只是一个单词、短语或表情符号。高级 Prompts：包括一个或多个图片 URL、多个文本短语以及一个或多个参数。其中，图片 URL 始终位于 prompt 的最前面，以影响完成结果的风格和内容。提示文字是对希望生成的图像的文本描述，精心编写的提示有助于生成惊艳的图像。参数可以改变生成图片的方式，需放在提示语的末尾。 ComfyUI Flux 与 runway 制作绘画视频：生成图片：提示词告诉 flux 生成一张技术草图，如 CAD。绘制的视频：在 runway 里面，使用提示词从空白页面开始逐行创建，并把生成的图片作为尾帧。草图上色：使用 flux 的 controlNet，depth 固定，目前 Union 版本不建议权重调太高，结束时间也需注意。 Prompt engineering（提示工程）：开发测试用例：定义任务和成功标准后，创建多样化的测试用例，包括典型示例和边界情况，以确保提示具有鲁棒性。设计初步提示：制定初步提示，概述任务定义、良好响应的特征及必要上下文，添加规范输入和输出的示例供参考。根据测试用例测试提示：使用初步提示将测试用例输入，评估模型响应与预期输出和成功标准的一致性，使用一致的评分标准进行系统性的性能评估。

金融业相关AI应用场景或AI技术介绍

在金融业中，AI 有以下应用场景和技术： 1. 风控和反欺诈：用于识别和阻止欺诈行为，降低金融机构的风险。 2. 信用评估：评估借款人的信用风险，帮助金融机构做出更好的贷款决策。 3. 投资分析：分析市场数据，辅助投资者做出更明智的投资决策。 4. 客户服务：提供 24/7 的客户服务，回答客户常见问题。例如，Hebbia 获得近 1 亿美元 B 轮融资，其 AI 技术能够一次处理多达数百万份文档，在短时间内浏览数十亿份包括 PDF、PowerPoint、电子表格和转录内容等，并返回具体答案，主要面向金融服务公司，如对冲基金和投资银行，同时也适用于律师事务所等其他专业领域。

stable diffusion底层技术

Stable Diffusion 的底层技术主要来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach 之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型（Latent Diffusion Model）研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型，其原理包括以下几个步骤： 1. 使用新颖的文本编码器（OpenCLIP），由 LAION 开发并得到 Stability AI 的支持，将文本输入转换为向量表示，以捕捉文本语义信息并与图像空间对齐。 2. 采用扩散模型，将随机噪声图像逐渐变换为目标图像。扩散模型是一种生成模型，能从训练数据中学习概率分布并采样新数据。 3. 在扩散过程中，利用文本向量和噪声图像作为条件输入，给出每一步变换的概率分布，根据文本指导噪声图像向目标图像收敛，并保持图像的清晰度和连贯性。 4. 使用超分辨率放大器（Upscaler Diffusion Model），将生成的低分辨率图像放大到更高分辨率，从低分辨率图像中恢复细节信息并增强图像质量。此外，ComfyUI 的底层依赖 Stable Diffusion，去噪过程由 UNet 网络完成。UNet 是一种编码器解码器结构，能处理多尺度特征表示。在 ComfyUI 中，去噪的每个步骤通过模型推理模块实现，调用训练好的 UNet 模型逐步将噪声图像还原成有意义的图像。交叉注意力机制在 Stable Diffusion 中很重要，允许模型在生成过程中融入文本提示、图像、语义信息等条件，在 ComfyUI 中通过“文本提示”和“条件输入”节点实现。跳跃连接是 UNet 的核心部分，能在不同尺度之间共享特征，在 ComfyUI 的节点网络中表现为中间过程数据的流转。切换器代表在去噪过程中的不同阶段对特征流的控制，在 ComfyUI 中可通过修改模型参数节点或自定义网络结构节点对不同阶段的噪声去除策略进行微调。 Stable Diffusion 还具有以下优点： 1. 可以处理任意领域和主题的文本输入，并生成与之相符合的多样化和富有创意的图像。 2. 可以生成高达 2048x2048 或更高分辨率的图像，且保持良好的视觉效果和真实感。它还可以进行深度引导和结构保留的图像转换和合成，例如根据输入图片推断出深度信息，并利用深度信息和文本条件生成新图片。

学习AI怎么在工作中使用，提高工作效率，有必要从技术原理开始学习吗

学习 AI 在工作中使用以提高工作效率，不一定需要从技术原理开始学习。以下是一些相关的案例和建议：案例一：GPT4VAct 是一个多模态 AI 助手，能够模拟人类通过鼠标和键盘进行网页浏览。其应用场景在于以后互联网项目产品的原型设计自动化生成，能使生成效果更符合用户使用习惯，同时优化广告位的出现位置、时机和频率。它基于 AI 学习模型，通过视觉理解技术识别网页元素，能执行点击和输入字符操作等，但目前存在一些功能尚未支持，如处理视觉信息程度有限、不支持输入特殊键码等。案例二：对于教师来说，有专门的 AI 减负指南。例如“AI 基础工作坊用 AI 刷新你的工作流”，从理解以 GPT 为代表的 AI 工作原理开始，了解其优势短板，学习写好提示词以获得高质量内容，并基于一线教师工作场景分享优秀提示词与 AI 工具，帮助解决日常工作中的常见问题，提高工作效率。建议：您可以根据自身工作的具体需求和特点，有针对性地选择学习方向。如果您只是想快速应用 AI 提高工作效率，可以先从了解常见的 AI 工具和应用场景入手，掌握基本的操作和提示词编写技巧。但如果您希望更深入地理解和优化 AI 在工作中的应用，了解技术原理会有一定帮助。

AI相关的最前沿技术网站

以下是一些 AI 相关的前沿技术网站： 1. OpenAI：提供了诸如 GPT 等先进的语言模型和相关技术。 2. Google AI：涵盖了多种 AI 领域的研究成果和应用。 3. Microsoft Research：在 AI 方面有众多创新研究和技术展示。此外，WaytoAGI 也是一个致力于人工智能学习的中文知识库和社区平台，汇集了上千个人工智能网站和工具，提供最新的 AI 工具、应用、智能体和行业资讯。在没有任何推广的情况下，WaytoAGI 两年时间已有超过 300 万用户和超千万次的访问量，其目标是让每个人的学习过程少走弯路，让更多的人因 AI 而强大。目前合作过的公司/产品包括阿里云、通义千问、淘宝、智谱、支付宝等。

，当前AI数字人发展的新态势，以及新技术和成果

当前 AI 数字人的发展呈现出以下新态势，并取得了一系列新技术和成果：数字人简介：数字人是运用数字技术创造的，虽现阶段未达科幻作品中的高度智能，但已在生活多场景中出现且应用爆发。业界对其尚无准确定义，一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情，主要用于影视和直播带货，其表现质量与建模精细度及动捕设备精密程度相关，不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向： B 端变现细分包括高频率和大规模的内容生产细分，如文字、视频、3D 模型、AI 智能体等，底层是需求和数据收集及训练模型，算力和能源是关键。自媒体创业需具备内容创新和差异化，内容成本低且更新迭代快。游戏创业可做轻量化游戏，结合 AI 技术满足放松和社交需求，专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点，更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人，数字插画可走治愈类型，要明确平台用户画像和产品定位，做好次留存和引入私域。 AI 虚拟人的发展与创业机遇： AI 虚拟人从早期以首位为核心的宅文化虚拟偶像，发展到以 CG 技术和动捕语音合成技术为核心的角色，再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发，平台层如商汤、百度等提供工具和系统，应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年，AI 虚拟人是 Web 3.0 的风口，提前布局有潜力的赛道可迎接机遇，但创业对创业者综合能力要求极高。未来展望：数字人未来有很多应用场景，如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破，如将五感数据和躯壳控制参数作为输入，次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路，数字人的核心在于 Agent 即灵魂，如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确，AI 既能提供高质量信息，也能关注用户情绪。

我们是搜索团队的产品经理，团队定位倾向于“对于插件的建设与调用”定位，现在要做AI相关的产品规划，请以通俗易懂的方式对以下问题做出回答 1、请通过流程图的方式，介绍【插件/工具】能力在大模型生态架构中的环节、定位、实现流程是什么 2、调研下对于我们搜索团队而言，插件应该做什么，可以做什么 3、思考对于大模型来说，有哪些（通用或垂类）的模块/功能/插件是无法绕开的，或高频使用的，作为我们团队后续争取的发力点（如搜索推荐对于传统综合搜索结果页）

以下是为您提供的关于 AI 相关产品规划的回答：一、插件/工具能力在大模型生态架构中的环节、定位、实现流程从 2023 年 3 月份 OpenAI 宣布插件计划开始，到 5 月份上线，其中包括联网、代码、画图三个插件。其实现流程大致为： 1. 经过对模型的微调，检测何时需要调用函数（取决于用户的输入）。 2. 使用符合函数签名的 JSON 进行响应。 3. 在接口层面声明可调用的工具。 4. 使用函数和用户输入调用模型。 5. 使用模型响应调用 API。 6. 将响应发送回模型进行汇总。二、对于搜索团队，插件可以做和应该做的事目前没有直接针对搜索团队插件具体可做和应做事项的明确内容，但可以参考 OpenAI 的插件计划，例如开发与搜索相关的特定功能插件，或者探索如何将现有的搜索推荐功能与大模型更好地结合。三、对于大模型无法绕开或高频使用的模块/功能/插件目前没有直接指出对于大模型无法绕开或高频使用的具体模块、功能或插件。但从相关信息中可以推测，例如与数据获取和处理相关的插件（如联网）、与技术开发相关的插件（如代码）以及与内容生成相关的插件（如画图）可能是较为重要和高频使用的。对于搜索团队来说，可以考虑在这些方向上寻找发力点，结合搜索推荐等传统功能，开发出更具竞争力的插件。

请以轨道式、巡检机器人为关键词查找国外文献十五篇，要求这些文献真实可靠并且有一定的影响力，同时附上原文链接

很抱歉，目前没有查找到以轨道式、巡检机器人为关键词的国外文献十五篇及原文链接。建议您通过以下途径进行查找： 1. 学术数据库，如 Web of Science、Scopus 等。 2. 相关领域的专业学术期刊网站。 3. 大学图书馆的电子资源库。

我的英文水平是CET4,想要在一年内达到雅思7分。请以一位专业的英文老师角度给与建议。请将建议以简洁的表达以及每日计划的形式体现出来

对于您想要在一年内从 CET4 水平提升到雅思 7 分的目标，以下是一些简洁的建议和每日计划：建议： 1. 扩充词汇量：雅思对词汇的要求较高，建议每天背诵一定量的雅思核心词汇。 2. 提升听力水平：多听雅思真题听力，尝试精听和泛听结合。 3. 加强阅读训练：每天进行雅思阅读练习，提高阅读速度和理解能力。 4. 注重写作练习：定期写作并请专业老师批改，学习优秀范文的结构和思路。 5. 口语练习：找语伴或参加英语角，多说多练，纠正发音和语法错误。每日计划：早上：背诵 30 个雅思词汇。听 30 分钟雅思听力真题，并做笔记。中午：利用午休时间阅读一篇雅思阅读文章。晚上：写一篇雅思作文，并对照范文进行修改。进行 30 分钟的口语练习，可以通过模仿、对话等方式。周末：做一套完整的雅思模拟试题，包括听力、阅读、写作和口语。总结本周的学习情况，找出薄弱环节，加强练习。需要注意的是，学习计划要根据个人实际情况进行调整，保持坚持和耐心，祝您成功！

Ai短视频比赛主题“什么样的时刻会首先出现在你的脑海中”，请以此主题提出几条优质的创作灵感建议，Ai生成视频要求不长于10秒，请用简单易懂的方式讲一下

以下是关于“什么样的时刻会首先出现在你的脑海中”这一 AI 短视频比赛主题的创作灵感建议： 1. 可以是烟花绽放的那一刻，绚丽多彩照亮夜空。 2. 是宠物与主人重逢相拥的那一刻，充满温馨与感动。 3. 是运动员冲过终点线的那一刻，展现胜利的喜悦。 4. 是孩子第一次学会走路的那一刻，充满成长的惊喜。 5. 是情侣在雨中亲吻的那一刻，浪漫而甜蜜。比赛相关要求： 1. 主题：以“The Moment”为主题进行创作。 2. 数量限制：每人不限视频数量。 3. 提交时间：12 月 31 日 21:00 前。 4. 参赛文件：16:9 格式，不长于 10 秒，30FPS 以上，不含剪辑。 5. 作业方式：不限。 6. 工具要求：使用可灵 AI（https://kling.kuaishou.com/）。 7. 视频要求：带可灵水印。 8. 参与方式：在指定时间发布作品，可通过通往 AGI 之路首页表格、在野菩萨小红薯群或支持社区提交。 9. 奖项设置：金奖 5000 元+5800 灵感值；银奖 3000 元+2700（2200+500）灵感值；铜奖 2000 元+1000 灵感值；入围 500 元×40；人气奖 2500 元×4 以及其他意外散落的灵感值。 10. 注意事项：不建议出现鲜血、武器、鬼怪骷髅、知名人物、18X 等不符合国家政策的内容，可能导致参赛失败。不在规定时间内提交的自动失去参赛资格。评审由专业评审决定，提交次周发布结果。参与该挑战视作同意将作品的使用权授予本号及第三方用于社群运营、展览、展示、传播、营销等用途，主办方拥有最终解释权。在下面的投稿链接中上传作品。

deepseek相比国内其他的AI，特点有哪些

DeepSeek 相比国内其他 AI 具有以下特点： 1. 在推理过程中通过多头隐式注意力减少内存需求，并且改进了 MoE 架构。 2. 在 LMSYS 排行榜上取得优异成绩，尤其在数学和编程方面表现出色。 3. 训练成本远高于传闻，约 13 亿美元，定价低于实际成本导致高额亏损。 4. 其最好的“产品”除了模型，还有高质量的论文，如 V2 和 V3 发布时的对应论文得到全球研究者的仔细阅读、分享、引用和大力推荐。 5. 中国的最强模型之一，能与美国生产的第二强前沿模型竞争，在某些子任务上挑战了 SOTA，且更能优先考虑计算效率，以弥补 GPU 访问的限制，并学会比美国同行更有效地利用资源。同时，DeepSeek 区别于大多数中国的 AI 创业公司，更像是一家研究机构。它有钱，有不输于巨头、远多于创业公司的弹药。但并非所有巨头都愿意有一个自己的 DeepMind。此外，DeepSeek 的“极简算力”模式使其在竞争中具有一定优势，如迅速赶超了法国的 Mistral AI。

免费生成AIPPT的站点有哪些

以下是一些免费生成 AIPPT 的站点： 1. AiPPT.cn：技术优势：基于自然语言处理技术的语义分析，可帮助用户快速生成演示文稿。具有基于图像识别技术的 AI 插件，能实现智能化的 PPT 模板生成、字体自动化排版等功能。基于数据分析技术的个性化推荐，能根据用户需求和偏好提供量身定制的演示文稿模板和素材。通过了国家网信办 PPT 生成算法备案，同时获得 A 股上市公司视觉中国战略投资，拥有 5 亿+版权素材库和 10 万+PPT 模板，为用户提供版权无忧、图文并茂的内容创作体验。商业模式：靠订阅工具业务赚钱，为全岗位职场人提供 10 余款 AIGC 工具，围绕企业内容工作流，满足工作中的 PPT、文案、H5、平面/视频制作、新媒体排版等高质量内容创作需求。 2. AutoAgents.ai：未来式智能是一家由创新工场投资，国内首批大语言模型技术落地和应用场景探索的公司。以自研 MultiAgent 架构为基础构建企业级 Agent“灵搭”平台，为企业提供 AI Copilot、Autopilot、Autonomous Agent 等智能体产品与服务。基于自主研发的企业级 Agent 应用构建平台，致力于解决大语言模型到场景化落地应用“最后一公里”问题。通过打破传统固化业务流，帮助企业构建高度智能化的底层通用业务流，打造人机共创的工作新范式，引领企业业务流程智能化升级，让全球 10 亿知识工作者 10 倍效工作。

coze工作流中提示词优化节点有吗？

在 Coze 工作流中存在提示词优化节点。这个节点比较容易理解，如果觉得提示词需要优化，可加入该节点进行处理。其参数很简单，只有一个要优化的提示词。例如，用一开始就在用的文生图提示词“1 girl in real world”进行试用。优化后添加了很多具体信息，如在带着好奇心看书，环境中有阳光，色彩搭配的特点等。但修改后的提示词在控制图片生成真实照片的感觉方面，“in real world”控制真实图片生成的效果比“realistic”好。

大模型技术对数据资产运营工作的提升点有哪些？

大模型技术对数据资产运营工作的提升点主要包括以下方面： 1. 更好地理解用户需求：通过利用对话历史，大模型能够在需要上下文理解或历史信息的场景中做出更准确和相关的响应，从而提升数据资产运营中与用户交互的质量。 2. 灵活的参数设置：生成随机性：模型提供如“精确模式”和“平衡模式”等预设模式，可调整生成回复的创造性和随机度。 Top P：影响生成文本的多样性和连贯性，通过调整其值控制模型考虑的词汇范围。最大回复长度：默认值可能较短导致回复不完整，将其调整到最大值可确保生成详尽完整的回复。 3. 异常处理能力：引入“异常忽略”特性，在遇到模型处理任务失败或超时时，工作流能继续执行而不中断，并通过预设应对措施，如记录错误日志、发送通知或启动备用流程，确保工作流的连续性和任务处理的可靠性。 4. 提升可信度：随着复杂模型的发展，其能力增强的同时也引发了对潜在滥用的担忧，包括生成假新闻、隐私泄露和伦理困境等，因此可信度问题成为研究焦点，需关注模型的安全性，抵抗滥用和“越狱”攻击的能力。 5. 在 ToB 业务中的应用：模型能力：期望提升到对垂直行业通用知识有较专业掌握，对各类任务有强泛化能力。成本：训练与部署推理成本降低到接近 2 年企业服务支出费用。应用工程：服务尽量标准且可控，通过应用工程让模型与企业业务流快速顺畅打通，目前进展最快，有基于行业数据微调小体量模型、采用流程自动化工程框架结合工具与数据库对接等方向。

如何让企业微信可以接上 AI？让我的企业微信号变成一个 AI 客服

要让企业微信接上 AI 并变成一个 AI 客服，可以参考以下内容： 1. 基于 COW 框架的 ChatBot 实现方案：这是一个基于大模型搭建的 Chat 机器人框架，可以将多模型塞进微信（包括企业微信）里。张梦飞同学写了更适合小白的使用教程，链接为：。可以实现打造属于自己的 ChatBot，包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能，以及常用开源插件的安装应用。正式开始前需要知道：本实现思路需要接入大模型 API 的方式实现（API 单独付费）。风险与注意事项：微信端因为是非常规使用，会有封号危险，不建议主力微信号接入；只探讨操作步骤，请依法合规使用，大模型生成的内容注意甄别，确保所有操作均符合相关法律法规的要求，禁止将此操作用于任何非法目的，处理敏感或个人隐私数据时注意脱敏，以防任何可能的滥用或泄露。支持多平台接入，如微信、企业微信、公众号、飞书、钉钉等；多模型选择，如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等；多消息类型支持，能处理文本、语音和图片，以及基于自有知识库进行定制的企业智能客服功能；多部署方法，如本地运行、服务器运行、Docker 的方式。 2. DIN 配置：先配置 FastGpt、OneAPI，装上 AI 的大脑后，可体验知识库功能并与 AI 对话。新建应用，在知识库菜单新建知识库，上传文件或写入信息，最后将拥有知识库能力的 AI 助手接入微信。

围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中，AI 面临着巨大挑战，如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法，利用价值网络评估棋面优劣，策略网络选择最佳落子，且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练，达到蒙特卡洛树搜索水平，并将其与蒙特卡洛树搜索有机结合，取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步，也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外，神经网络在处理未知规则方面具有优势，虽然传统方法在处理象棋问题上可行，但对于围棋则困难重重，而神经网络专门应对此类未知规则情况。关于这部分内容，推荐阅读《这就是 ChatGPT》一书，其作者备受推崇，美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。

什么AI工具可以实现提取多个指定网页的更新内容

以下 AI 工具可以实现提取多个指定网页的更新内容： 1. Coze：支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容，可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时，输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序，标注要采集的内容，内容上传成功率高。 2. AI Share Card：能够一键解析各类网页内容，生成推荐文案，把分享链接转换为精美的二维码分享卡。通过用户浏览器，以浏览器插件形式本地提取网页内容。

以下是关于文字生成视频（文生视频）的相关信息：一些提供文生视频功能的产品： Pika：擅长动画制作，支持视频编辑。 SVD：Stable Diffusion 的插件，可在图片基础上生成视频。 Runway：老牌工具，提供实时涂抹修改视频功能，但收费。 Kaiber：视频转视频 AI，能将原视频转换成各种风格。 Sora：由 OpenAI 开发，可生成长达 1 分钟以上的视频。更多相关网站可查看：https://www.waytoagi.com/category/38 。制作 5 秒单镜头文生视频的实操步骤（以梦 AI 为例）：进入平台：打开梦 AI 网站并登录，新用户有积分可免费体验。输入提示词：涵盖景别、主体、环境、光线、动作、运镜等描述。选择参数并点击生成：确认提示词无误后，选择模型、画面比例，点击「生成」按钮。预览与下载：生成完毕后预览视频，满意则下载保存，不理想可调整提示词再试。视频模型 Sora：OpenAI 发布的首款文生视频模型，能根据文字指令创造逼真且充满想象力的场景，可生成长达 1 分钟的一镜到底超长视频，视频中的人物和镜头具有惊人的一致性和稳定性。

Ai在设备风控场景的落地

AI 在设备风控场景的落地可以从以下几个方面考虑：法律法规方面：《促进创新的人工智能监管方法》指出，AI 的发展带来了一系列新的安全风险，如对个人、组织和关键基础设施的风险。在设备风控中，需要关注法律框架是否能充分应对 AI 带来的风险，如数据隐私、公平性等问题。趋势研究方面：在制造业中，AI Agent 可用于生产决策、设备维护、供应链协调等。例如，在工业设备监控与预防性维护中，Agent 能通过监测传感器数据识别异常模式，提前通知检修，减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面，AI Agent 也能发挥重要作用，实现生产的无人化、决策的数据化和响应的实时化。

以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总： 4 月 11 日： Pika 上线 Pika Twists 能力，可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中，结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术，可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术，实现从单张图片快速生成超逼真的 3D 头像，在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage，通过图片生成可自由拼装 3D 场景，再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型，无缝支持各种视频生成任务（文本/图像/视频到视频）。 4 月 9 日： ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下，可生成完整的 1 分钟视频。 4 月 14 日：字节发布一款经济高效的视频生成基础模型 Seaweed7B。可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。