Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI 图像识别的发展历程

Answer

AI 图像识别的发展历程如下:

  • 早期处理印刷体图片的方法是将图片变成黑白、调整为固定尺寸,与数据库对比得出结论,但这种方法存在多种字体、拍摄角度等例外情况,且本质上是通过不断添加规则来解决问题,不可行。
  • 神经网络专门处理未知规则的情况,如手写体识别。其发展得益于生物学研究的支持,并在数学上提供了方向。
  • CNN(卷积神经网络)的结构基于大脑中两类细胞的级联模型,在计算上更高效、快速,在自然语言处理和图像识别等应用中表现出色。
  • ImageNet 数据集变得越来越有名,为年度 DL 竞赛提供了基准,在短短七年内使获胜算法对图像中物体分类的准确率从 72%提高到 98%,超过人类平均能力,引领了 DL 革命,并开创了新数据集的先例。
  • 2012 年以来,在 Deep Learning 理论和数据集的支持下,深度神经网络算法大爆发,如卷积神经网络(CNN)、递归神经网络(RNN)和长短期记忆网络(LSTM)等,每种都有不同特性。例如,递归神经网络是较高层神经元直接连接到较低层神经元;福岛邦彦创建的人工神经网络模型基于人脑中视觉的运作方式,架构基于初级视觉皮层中的简单细胞和复杂细胞,简单细胞检测局部特征,复杂细胞汇总信息。
Content generated by AI large model, please carefully verify (powered by aily)

References

学习笔记:【这就是 ChatGPT】了解原理让大语言模型 AI 成为你的打工人

如果识别一个印刷体图片,我可能会怎么做神经网络解决的是未知规则的处理。先把图片都变成黑白大小变成固定尺寸和数据库的东西对比得出结论然而,这种情况过于理想化。不仅存在多种字体,即使对于印刷体,不同的拍摄角度也引入了多种例外情况。虽然存在图形算法进行矫正,但整体方法仍然是基于不断添加规则。这种方法本质上是试图通过不断增加和完善规则来解决问题,这显然是不可行的。虽然这种方法可以解决象棋的问题,但对围棋来说就非常困难了。围棋的每个节点有三种可能状态:白、黑或空,加上不同节点间状态的组合,现有的资源无法应对。神经网络专门处理未知规则的情况。将图片转换为黑白,调整图片至固定尺寸,与数据库中的内容进行对比,最终得出结论。神经网络的发展得益于生物学研究的支持,并且在数学上提供了一种方向,使其能够处理未知的情况,如手写体识别。关于这部分内容,非常建议看《这就是ChatGPT》这本书,它的作者是被称为”在世的最聪明的人”,研究神经网络几十年,创作了Mathematica、Wolfram等备受推崇的软件,这本书最特别之处还在于,导读序是美团技术学院院长刘江老师回顾了整个AI技术发展的历史,对于了解AI,大语言模型计算路线的发展,起到提纲挈领的作用,非常值得一读。本文写作过程中得到了[byzer-llm](https://github.com/allwefantasy/byzer-llm)作者祝威廉的大力支持,在此感谢。byzer-llm选择了一个非常特别的技术路线,在大模型时代显得尤为重要。

机器之心的进化 / 理解 AI 驱动的软件 2.0 智能革命

CNN的结构是基于这两类细胞的级联模型,主要用于模式识别任务。它在计算上比大多数其他架构更有效、更快速,在许多应用中,包括自然语言处理和图像识别,已经被用来击败大多数其他算法。我们每次对大脑的工作机制的认知多一点,神经网络的算法和模型也会前进一步!

机器之心的进化 / 理解 AI 驱动的软件 2.0 智能革命

该数据集对研究人员非常有用,正因为如此,它变得越来越有名,为最重要的年度DL竞赛提供了基准。仅仅七年时间,ImageNet让获胜算法对图像中的物体进行分类的准确率从72%提高到了98%,超过了人类的平均能力。ImageNet成为DL革命的首选数据集,更确切地说,是由Hinton领导的AlexNet卷积神经网络(CNN - Convolution Neural Networks)的数据集。ImageNet不仅引领了DL的革命,也为其他数据集开创了先例。自其创建以来,数十种新的数据集被引入,数据更丰富,分类更精确。神经网络大爆发在Deep Learning理论和数据集的加持下,2012年以来深度神经网络算法开始大爆发,卷积神经网络(CNN)、递归神经网络(RNN - Recurrent Neural Network)和长短期记忆网络(LSTM - Long Short-Term Memory)等等,每一种都有不同的特性。例如,递归神经网络是较高层的神经元直接连接到较低层的神经元。来自日本的计算机研究员福岛邦彦(Kunihiko Fukushima)根据人脑中视觉的运作方式,创建了一个人工神经网络模型。该架构是基于人脑中两种类型的神经元细胞,称为简单细胞和复杂细胞。它们存在于初级视觉皮层中,是大脑中处理视觉信息的部分。简单细胞负责检测局部特征,如边缘;复杂细胞汇集了简单细胞在一个区域内产生的结果。例如,一个简单细胞可能检测到一个椅子的边缘,复杂细胞汇总信息产生结果,通知下一个更高层次的简单细胞,这样逐级识别得到完整结果。配图05:深度神经网络如何识别物体(TensorFlow)

Others are asking
图像识别模型
图像识别模型通常包括编码器和解码器部分。以创建图像描述模型为例: 编码器:如使用 inception resnet V2 应用于图像数据,且大部分情况下会冻结此 CNN 的大部分部分,因为其骨干通常是预训练的,例如通过庞大的数据集如图像网络数据集进行预训练。若想再次微调训练也是可行的,但有时仅需保留预训练的权重。 解码器:较为复杂,包含很多关于注意力层的说明,还包括嵌入层、GRU 层、注意力层、添加层归一化层和最终的密集层等。 在定义好解码器和编码器后,创建最终的 TF Keras 模型并定义输入和输出。模型输入通常包括图像输入进入编码器,文字输入进入解码器,输出则为解码器输出。在运行训练前,还需定义损失功能。 另外,还有一些相关模型的安装配置,如 siglipso400mpatch14384(视觉模型),由 Google 开发,负责理解和编码图像内容,其工作流程包括接收输入图像、分析图像的视觉内容并将其编码成特征向量。image_adapter.pt(适配器)连接视觉模型和语言模型,优化数据转换。MetaLlama3.18Bbnb4bit(语言模型)负责生成文本描述。
2025-03-28
一、学习内容 1. AI工具的操作:了解并掌握至少一种AI工具的基本操作,如智能代码、流程管理、智能报表、数据分析、图像识别、文字生成等。 2. AI工具在本职工作的应用:思考并提出AI工具如何帮助你更高效地完成本职工作,包括但不限于提高工作效率、优化工作流程、节约成本、提升交付质量等。 3. AI工具在非本职工作的潜力推演:探索AI工具如何在你的非本职工作领域发挥作用,比如在公司管理、团队领导、跨部门合作、团队发展以及市场研究等方面。提出这些工具如何被有效利用,以及它们可能带来的改
以下是关于学习 AI 的相关内容: 一、AI 工具的操作 要了解并掌握至少一种 AI 工具的基本操作,如智能代码、流程管理、智能报表、数据分析、图像识别、文字生成等。 二、AI 工具在本职工作的应用 思考并提出 AI 工具如何帮助更高效地完成本职工作,包括但不限于提高工作效率、优化工作流程、节约成本、提升交付质量等。 三、AI 工具在非本职工作的潜力推演 探索 AI 工具在非本职工作领域,如公司管理、团队领导、跨部门合作、团队发展以及市场研究等方面的作用,思考如何有效利用这些工具以及它们可能带来的改变。 四、学习路径 1. 对于不会代码的学习者: 20 分钟上手 Python+AI,在 AI 的帮助下可以完成很多基础的编程工作。若想深入,需体系化了解编程及 AI,至少熟悉 Python 基础,包括基本语法(如变量命名、缩进等)、数据类型(如字符串、整数、浮点数、列表、元组、字典等)、控制流(如条件语句、循环语句)、函数(定义和调用函数、参数和返回值、作用域和命名空间)、模块和包(导入模块、使用包)、面向对象编程(类和对象、属性和方法、继承和多态)、异常处理(理解异常、异常处理)、文件操作(文件读写、文件与路径操作)。 2. 新手学习 AI: 了解 AI 基本概念,建议阅读「」部分,熟悉术语和基础概念,浏览入门文章。 开始 AI 学习之旅,在「」中找到为初学者设计的课程,推荐李宏毅老师的课程,也可通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习并获证书。 选择感兴趣的模块深入学习,掌握提示词技巧。 实践和尝试,理论学习后通过实践巩固知识,在知识库分享实践作品和文章。 体验 AI 产品,如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人,了解其工作原理和交互方式。 五、工具推荐 1. Kimi 智能助手:ChatGPT 的国产平替,上手体验好,适合新手入门学习和体验 AI。不用科学网、不用付费、支持实时联网,是国内最早支持 20 万字无损上下文的 AI,对长文理解做得好,能一次搜索几十个数据来源,无广告,能定向指定搜索源(如小红书、学术搜索)。 PC 端: 移动端(Android/ios): 2. 飞书:汇集各类 AI 优质知识库、AI 工具使用实践的效率工具,助力人人成为效率高手。
2025-02-07
图像识别能力能用在哪些方面?
图像识别能力可以应用在以下方面: 1. 自动驾驶:帮助车辆识别道路、交通标志和其他物体。 2. 广告定向投放:根据图像内容精准推送相关广告。 3. 网页搜索结果优化:通过识别图像内容提高搜索结果的准确性。 4. 数字助手:如 Google Now 或 Amazon Alexa 中用于识别图像相关的指令。 5. 安防监控:识别异常行为或人物。 6. 医疗诊断:辅助医生识别医学影像中的病症。 7. 工业检测:检测产品的质量和缺陷。 8. 物流:识别货物的类别和状态。
2024-12-05
以图像识别,为小白科普相关知识和交叉领域,并为研究生提供参考选题
图像识别是指利用计算机技术对图像进行处理和分析,以识别和理解图像中的内容。 对于小白来说,图像识别是让计算机像人一样“看懂”图像。它基于深度学习、机器学习等技术,通过对大量图像数据的学习和训练,能够自动提取图像的特征,并进行分类、识别等操作。 图像识别的应用非常广泛,比如在安防领域,用于人脸识别、车牌识别等;在医疗领域,辅助疾病诊断、医学影像分析;在交通领域,实现交通标志识别、车辆检测等。 图像识别与多个领域存在交叉,如计算机视觉,它不仅关注图像的识别,还包括图像的生成、处理等;与人工智能的其他分支如自然语言处理也有结合,实现图文转换等功能;在工业领域,与自动化生产相结合,进行产品质量检测等。 对于研究生来说,以下是一些参考选题: 1. 基于小样本学习的图像识别算法研究。 2. 融合多模态信息的图像识别模型优化。 3. 针对特定场景(如复杂环境、低光照等)的图像识别改进。 4. 图像识别在医疗诊断中的精准度提升策略。 5. 结合深度学习和传统方法的图像识别性能比较。 6. 基于新型神经网络架构的图像识别应用。
2024-10-19
用ai进行图像识别
AI 在图像识别方面的应用较为广泛,以下为您介绍一些相关内容: 在自动驾驶技术中,利用 AI 进行图像识别、传感器数据分析和决策制定,使自动驾驶汽车能够自主导航和驾驶,如特斯拉(Tesla)、Waymo 和 Cruise 等公司都在开发和测试自动驾驶汽车。 BERT 理念被应用于机器视觉领域,通过将图片分割处理,ViT 模型得以实现图像识别。 在深度学习中,图像识别实际是将图片转化为大量的图像单个像素点 RGB 值作为输入,再大量标注输出,形成神经网络。
2024-10-15
ai图像识别
以下是关于 AI 图像识别的相关内容: 判断一张图片是否为 AI 生成的方法: 通过画面风格、物品 bug 等细节进行辨别。但需注意,AI 在不断修正作图 bug,相关方法可能随时失效。 利用专门的网站,如 ILLUMINARTY(https://app.illuminarty.ai/),通过对大量图片数据的抓取和分析来判断,但可能存在误判,如将结构严谨的真实摄影作品识别为 AI 作图。 关于鉴别 AIGC 的讨论: 培养鉴别 AI 生成图片的技能需要训练大脑模型。 AI 自身的逻辑算法不能像人类一样综合考虑各种不符合逻辑的表现。 另外,人工智能在汽车行业有广泛应用: 自动驾驶技术:利用 AI 进行图像识别、传感器数据分析和决策制定。 车辆安全系统:如自动紧急制动、车道保持辅助和盲点检测等。 个性化用户体验:根据驾驶员偏好和习惯调整车辆设置。 预测性维护:分析车辆实时数据预测潜在故障和维护需求。 生产自动化:用于汽车制造的自动化生产线。 销售和市场分析:分析市场趋势、消费者行为和销售数据。 电动化和能源管理:优化电动汽车电池管理和充电策略。 共享出行服务:优化路线规划、调度车辆和定价策略。 语音助手和车载娱乐:如 Amazon Alexa Auto 和 Google Assistant 等。 车辆远程监控和诊断:远程监控车辆状态并提供实时诊断和支持。
2024-10-15
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
人工智能发展历程
人工智能的发展历程如下: 二十世纪中叶,人工智能领域开启,符号推理流行,出现专家系统,但因方法局限性和成本问题,20 世纪 70 年代出现“人工智能寒冬”。 随着时间推移,计算资源更便宜,数据更多,神经网络方法在计算机视觉、语音理解等领域展现出色性能,过去十年中,“人工智能”常被视为“神经网络”的同义词。 1943 年,心理学家麦卡洛克和数学家皮特斯提出机器的神经元模型,为神经网络奠定基础。 1950 年,图灵最早提出图灵测试作为判别机器是否具备智能的标准。 1956 年,在美国达特茅斯学院,马文·明斯基和约翰·麦凯西等人共同发起召开达特茅斯会议,“人工智能”一词被正式提出,并确立为一门学科。此后近 70 年,AI 发展起起落落。 AI 技术发展历程包括:早期阶段(1950s 1960s)的专家系统、博弈论、机器学习初步理论;知识驱动时期(1970s 1980s)的专家系统、知识表示、自动推理;统计学习时期(1990s 2000s)的机器学习算法(决策树、支持向量机、贝叶斯方法等);深度学习时期(2010s 至今)的深度神经网络、卷积神经网络、循环神经网络等。
2025-04-09
人工智能算法的发展历程是怎么样的?
人工智能算法的发展历程大致如下: 早期的国际象棋对弈程序以搜索为基础,发展出了阿尔法贝塔剪枝搜索算法。在对局开始时搜索空间巨大,随后通过学习人类棋手对局采用了基于案例的推理。现代能战胜人类棋手的对弈程序基于神经网络和强化学习,能从自身错误中学习,且学习速度快于人类。 创建“会说话的程序”的方法也在变化,早期如 Eliza 基于简单语法规则,现代助手如 Cortana、Siri 或谷歌助手是混合系统,使用神经网络转换语音并识别意图,未来有望出现完整基于神经网络的模型处理对话,如 GPT 和 TuringNLG 系列神经网络取得了巨大成功。 在机器学习方面,算法通过分析数据和推断模型建立参数,或与环境互动学习,人类可注释数据,环境可为模拟或真实世界。 深度学习是一种机器学习算法,由 Geoffrey Hinton 开创,1986 年发表开创性论文引入反向传播概念,2012 年 Hinton 和学生表明深度神经网络在图像识别方面击败先进系统。为使深度学习按预期工作,需要数据,如李飞飞创建的 ImageNet。 AI 技术发展历程包括早期阶段的专家系统、博弈论、机器学习初步理论;知识驱动时期的专家系统、知识表示、自动推理;统计学习时期的机器学习算法;深度学习时期的深度神经网络、卷积神经网络、循环神经网络等。 当前 AI 前沿技术点有大模型(如 GPT、PaLM 等)、多模态 AI、自监督学习、小样本学习、可解释 AI、机器人学、量子 AI、AI 芯片和硬件加速等。
2025-03-26
AI绘画的技术演进历程
AI 绘画的技术演进历程如下: 早期,AI 绘画成果较为简单和粗糙。但随着技术进步,尤其是深度学习算法如卷积神经网络等的应用,AI 绘画能够生成更加复杂、逼真和富有创意的图像。如今,它已涵盖各种风格和题材,从写实到抽象,从风景到人物,并在与人类艺术家的互动和融合中不断创新。 在艺术创作方面,AI 绘画利用机器学习和深度学习等技术,模拟人类创作过程,生成令人惊叹的作品,为艺术家提供新工具,为观众带来新体验。它打破了传统手工绘画技巧的局限,通过编程、算法和数据分析等开拓新创作领域,让缺乏绘画技巧的人也能参与艺术创作,使艺术更具民主化和包容性。 在应用场景上,AI 绘画在广告设计中可快速生成创意概念图,为策划提供灵感和初稿;在游戏开发中用于创建场景和角色形象,提高开发效率;在影视制作中辅助生成特效场景和概念设计;在建筑设计中帮助构想建筑外观和内部布局。 同时,AI 绘画对艺术界的影响是复杂且双面的。它既提供了新的创作工具和可能性,也引发了关于艺术本质、创造性、版权和伦理的重要讨论。艺术界的反馈使 AI 在绘画方面有显著进展,但其在表达情感和创造性意图方面仍存在局限性,也引发了艺术家对版权、原创性和伦理问题的担忧,带来了对文化创意领域从业者职业安全的焦虑以及“侵权”嫌疑的反对之声。尽管存在争议,AI 绘画仍为艺术创作提供了新的可能性,帮助艺术家探索新创意表达方式,提高制作效率,降低制作成本,促进艺术与观众的互动,提供个性化和互动的艺术体验。
2025-03-22
通义千问发展历程
通义千问是阿里云推出的大语言模型。于 2023 年 4 月 11 日在阿里云峰会上正式发布 1.0 版本。9 月 13 日,通义千问大模型首批通过备案。10 月 31 日,阿里云正式发布千亿级参数大模型通义千问 2.0,8 大行业模型同步上线。9 月,通义千问 2.5 系列全家桶开源。
2025-03-20
AI的发展历程
AI 的发展历程可以大致分为以下几个阶段: 1. 起步阶段(20 世纪 50 年代 60 年代):这一时期的研究重点是基于符号主义的推理和问题解决。 2. 低谷阶段(20 世纪 70 年代 80 年代):由于计算能力和数据的限制,AI 的发展遭遇了挫折。 3. 复苏阶段(20 世纪 80 年代 90 年代):专家系统等技术的出现推动了 AI 的发展。 4. 快速发展阶段(21 世纪初至今):随着大数据、深度学习算法和强大计算能力的出现,AI 在图像识别、语音识别、自然语言处理等领域取得了显著成就。
2025-03-19
deepseek公式的发展历程
DeepSeek 公式的发展历程如下: 2025 年 2 月 9 日,陈财猫分享提示词及小说创作心得,提到 DeepSeek 热度极高,微信指数达 10 亿多次,并准备先讲讲该模型的特点。 DeepSeek R1 不同于先前的普通模型,如 ChatGPT4、Claude 3.5 sonnet、豆包、通义等,它属于基于强化学习 RL 的推理模型,在回答用户问题前会先进行“自问自答”式的推理思考,以提升最终回答的质量。 早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发了一场小范围的轰动。
2025-02-11
分析AI颠覆性发展的生产策略调查的研究情况综述
以下是关于企业构建和购买生成式 AI 方式的 16 个变化的研究情况综述: 生成式人工智能在 2023 年迅速席卷消费市场,创下超过 10 亿美元的消费支出纪录。预计 2024 年企业领域的收入机会将数倍于消费市场。去年,企业对 genAI 的参与多局限于少数明显用例,且以“GPTwrapper(GPT 套壳)”产品作为新的 SKU 交付,一些人对其在企业中的扩展持怀疑态度。 然而,在过去几个月,a16Z 与数十家财富 500 强和顶级企业领导人交谈并对 70 多位进行调查后发现,过去 6 个月里,企业对生成式 AI 的资源配置和态度有显著变化。尽管仍有保留,但企业领导人几乎将预算增加两倍,更多应用部署在较小的开源模型上,并将更多业务从早期实验转移到生产环境中。 这对创始人是巨大机遇。a16Z 认为,为客户“以 AI 为中心的战略计划”构建解决方案,能预见痛点,从重服务模式转向构建可扩展产品的人工智能初创公司,将抓住新投资浪潮并占据重要市场份额。 任何时候,为企业构建和销售产品都需深入了解客户预算、关注点和路线图。a16Z 根据访谈结果总结了 16 个最为关键的考虑因素,涉及资源、模型和应用。
2025-04-15
,当前AI数字人发展的新态势,以及新技术和成果
当前 AI 数字人的发展呈现出以下新态势,并取得了一系列新技术和成果: 数字人简介: 数字人是运用数字技术创造的,虽现阶段未达科幻作品中的高度智能,但已在生活多场景中出现且应用爆发。业界对其尚无准确定义,一般可按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视和直播带货,其表现质量与建模精细度及动捕设备精密程度相关,不过视觉算法进步使在无昂贵动捕设备时也能通过摄像头捕捉关键点信息实现不错效果。 B 端变现与创业方向: B 端变现细分包括高频率和大规模的内容生产细分,如文字、视频、3D 模型、AI 智能体等,底层是需求和数据收集及训练模型,算力和能源是关键。自媒体创业需具备内容创新和差异化,内容成本低且更新迭代快。游戏创业可做轻量化游戏,结合 AI 技术满足放松和社交需求,专注垂类赛道避免与大厂竞争。影视创业在 25 年将是拐点,更多内容会采用 AI 技术。广告营销创业重点是 AI 虚拟人,数字插画可走治愈类型,要明确平台用户画像和产品定位,做好次留存和引入私域。 AI 虚拟人的发展与创业机遇: AI 虚拟人从早期以首位为核心的宅文化虚拟偶像,发展到以 CG 技术和动捕语音合成技术为核心的角色,再到如今以动捕和人工智能技术为核心的服务型虚拟人。虚拟人产业链包括基础层的硬件和软件研发,平台层如商汤、百度等提供工具和系统,应用层涉及影视、传媒、游戏、金融、文旅等内容变现。未来 3 10 年,AI 虚拟人是 Web 3.0 的风口,提前布局有潜力的赛道可迎接机遇,但创业对创业者综合能力要求极高。 未来展望: 数字人未来有很多应用场景,如家庭中的数字人管家、学校中的数字人老师、商场里的数字人导购等。未来还会有很多技术突破,如将五感数据和躯壳控制参数作为输入,次世代算法可自我迭代升级和自行演化躯壳控制方式。通过 Dify 搭建数字人的开源项目可展现低门槛高度定制数字人的基本思路,数字人的核心在于 Agent 即灵魂,如何在 Dify 上编排专属数字人灵魂值得体验。期望随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,AI 既能提供高质量信息,也能关注用户情绪。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出10个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍: 1. 人才招聘与筛选 What:利用 AI 技术对求职者的简历进行自动筛选和分析,评估其与岗位的匹配度。 Why:节省 HR 大量的时间和精力,提高招聘效率和准确性。 How:通过自然语言处理和机器学习算法,训练模型识别关键信息和技能。 2. 员工培训与发展 What:根据员工的技能水平和职业发展目标,定制个性化的培训计划。 Why:提升员工的能力和绩效,增强员工对企业的忠诚度。 How:利用大数据分析员工的工作表现和学习需求,推荐相关课程和学习资源。 3. 薪酬福利管理 What:运用 AI 预测市场薪酬趋势,为企业制定合理的薪酬策略。 Why:保持企业薪酬的竞争力,吸引和留住优秀人才。 How:收集和分析行业薪酬数据,结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What:借助 AI 实时监测员工的工作表现,提供客观的绩效评估。 Why:减少人为偏差,确保评估的公正性和准确性。 How:利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What:通过 AI 分析员工的情绪和满意度,及时发现问题并解决。 Why:营造良好的工作氛围,提高员工的工作积极性和创造力。 How:使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What:利用 AI 分析企业的业务流程和人员配置,提供组织架构调整建议。 Why:提高企业的运营效率和灵活性,适应市场变化。 How:基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What:根据企业的战略目标和业务发展预测人力资源需求。 Why:提前做好人才储备和招聘计划,保障企业的正常运营。 How:运用数据分析和预测模型进行规划。 8. 企业文化传播 What:使用 AI 生成个性化的企业文化宣传内容,提高传播效果。 Why:增强员工对企业文化的认同感和归属感。 How:利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What:在 HR 服务中引入 AI 客服,解答员工常见问题。 Why:快速响应员工需求,提高服务质量。 How:训练智能客服模型,涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What:利用 AI 对人才库进行分类和更新,提高人才库的利用效率。 Why:方便快速找到合适的人才,降低招聘成本。 How:运用数据挖掘和分类算法进行管理。
2025-04-14
公共议题:AI如何助力HR业务? 研讨目标: 深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景 机会识别与场景落地:基于组织现状,识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物): 请输出3-5个业务价值高、具备可行性的AI应用场景介绍,并说明what(场景是什么)、why(为什么值得做)、How(如何落地);
以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍: 场景一:AI 在企业招聘中的应用 What:利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why:能够快速处理大量简历,提高招聘效率和准确性,节省人力和时间成本,同时更精准地找到符合岗位需求的人才。 How:通过引入相关的 AI 招聘软件,与企业现有的招聘系统集成,对简历进行关键词提取和分析,利用机器学习算法进行人才匹配,并通过视频面试中的语音和表情分析辅助评估候选人。 场景二:AI 助力个性化人力资源管理 What:根据员工的个人特点和工作表现,提供个性化的培训计划、职业发展建议和绩效评估。 Why:能够充分发挥员工的潜力,提高员工满意度和忠诚度,促进企业的长期发展。 How:收集员工的工作数据、学习记录和绩效表现等信息,运用 AI 算法进行分析和预测,为员工制定专属的发展方案,并通过移动应用或内部系统向员工推送相关建议和培训课程。 场景三:AI 打造无人值守的 HR 平台 What:实现 HR 业务的自动化处理,如员工请假审批、薪酬计算和福利发放等。 Why:减少人工操作的错误和繁琐流程,提高 HR 工作的效率和准确性,使 HR 人员能够专注于更有价值的战略工作。 How:整合企业内部的各种 HR 系统和数据,利用 RPA 和 AI 技术实现流程的自动化,同时建立监控和预警机制,确保平台的稳定运行。
2025-04-14
,AI agent 发展趋势,技术状态,商业模式
以下是关于 AI Agent 的发展趋势、技术状态和商业模式的相关信息: 发展趋势: 2024 年内,办公场景“AI 助手”开始有良好使用体验,实时生成的内容开始在社交媒体内容、广告中出现。 2025 2027 年,接近 AGI 的技术出现,人与 AI 配合的工作方式成为常态,很多日常决策开始由 AI 来执行。 技术状态: 目标实现基于 ReAct、SFT、RAG、强化学习等实现自主规划能力的 AI Agent,构建具备认知、决策智能的 Agent 智能体框架。 专注文本/多模态大模型、AI Agent 技术创新与应用。 商业模式: 依据不同类型销售市场的特点,结合一站式 AI 搭建平台将销售部署的产品化和模版化,让企业更容易落地和应用 AI 能力。 销售智能体 Blurr.AI 占位交易环节,解决 2B 销售获客的痛点,且具有向前后端环节延展的势能。
2025-04-13
现在Ai已经发展到什么程度了
目前 AI 的发展已不再局限于单一的技术和应用范畴,而是融合了众多学科知识,并深入渗透到生活的各个层面,引发了一场生产力的革命。 有观点认为,AI 引领的是第四次工业革命的浪潮:继蒸汽机引发的机械化变革、电力驱动的电气化革新,以及电脑普及带来的信息化浪潮之后,AI 正推动着智能化时代的到来。 2025 开年 3 个月,AI 已经狂飙!R1 席卷全球,然后是 O3、Grok 3、Claude 3.7、GPT4.5 等,短短 3 个月内,AI 更新密集发布。然而很多人仍未察觉 AI 正在指数级加速,甚至抱怨 GPT4.5 表现不佳,但事实上,AI 发展已经是直线拉升状态,每天都在进步。 此外,Grok 语音模式已全面开放,支持 11 种模式(包括 2 种 18 禁),自带语音字幕,是学习英语的好工具,但目前仅支持英文。
2025-04-13