Chat with Wiki - 目前网上AI是如何分类的？

Answer

目前网上对 AI 的分类方式主要有以下几种：

根据 a16z 榜单重新整理的分类：
- 生产力（文档、ppt、会议、脑爆、数据处理、搜索、浏览、email、文件）
- 社交（真实、虚拟）
- 教育（早教、语言学习、公司教育、父母教育、学生工具、学校工具）
- 创意内容（视频、音乐、声音、个人图像、图像）
编程工具分类：
- AI IDE（AI 集成开发环境）：本身是单独的软件开发工具，在原有软件开发工具基础上通过代码魔改具备 AI 功能，如 Cursor、Windsurf、Trae 等。
- AI Extensions（AI 插件）：必须被集成进对应的开发环境中才能使用，如阿里的“通义灵码”、百度的“文心快码”、字节跳动的“MarsCode”、科大讯飞的“iFlyCode”、GitHub 的“Copilot”等。
以生成方式划分的 AIGC 分类：
- 音视频生成类：
  - 视频生成：当前视频生成可分为文生视频、图生视频与视频生视频，主流生成模型为扩散模型。视频生成可用于娱乐、体育分析和自动驾驶等领域，经常与语音生成一起使用。
  - 语音生成：用于文本到语音的转换、虚拟助手和语音克隆等，常用模型由 Transformers 提供，常用技术包括循环神经网络、长短时记忆网络、WaveNet 等。
- 一些具有代表性的海外项目：
  - Sora（OpenAI）：以扩散 Transformer 模型为核心，能生成长达一分钟的高保真视频，支持多种生成方式，在文本理解方面表现出色。
  - Genie（Google）：采用 ST-transformer 架构，包括潜在动作模型、视频分词器与动力学模型，拥有 110 亿参数。
  - WaveNet（DeepMind）：一种生成模型，可生成逼真的人类语音。
  - MuseNet（OpenAI）：一种生成音乐的 AI 模型，可在多种风格和乐器之间组合。
  - Multilingual v2（ElevenLabs）：一种语音生成模型，支持 28 种语言的语音合成服务。

Content generated by AI large model, please carefully verify (powered by aily)

References

生成式AI季度数据报告_2024Q1.pdf

◼ ◼ ◼经讨论，根据a16z榜单重新整理分类，原因是A16Z的报告是发声最频繁，研究广度认可度最高，共识度相对最高，离一线创业者最近的GenAI报告从原有红杉模态分类，即文字，图像，声音模态标准，改为：•生产力(文档+ppt+会议+脑爆+数据处理+搜索+浏览+email+文件)•社交(真实+虚拟)•教育(早教+语言学习+公司教育+父母教育+学生工具+学校工具•创意内容(视频+音乐+声音+个人图像+图像)这样的分类好处是，从用户特性出发，更加具体和聚焦◼只能参考热度的赛道：• LLM基础设施/开发者生态汇聚了巨大融资，包括代码工具等，其C端流量无法完全代表重要程度，仅作参考•垂类分类汇聚了巨大融资，包括金融，医疗等，其2C部分难以管中窥豹，仅做参考• Agent赛道亦是如此◼完全无法Cover重要程度的赛道：• B2B在美国是真正的趋势，本次偏向2C的报告，并无法覆盖•硬件+AI也是非常重要的新兴赛道•游戏+AI也是被寄予厚望的赛道，然后C端流量也无法参考其热度报告说明（3）：A16z应用端文章列表，公众号aiwatch.ai扫码访问本表格A16z的报告的确是目前2C端覆盖面最广的本次报告框架也有所参考，推荐阅读。国内比较喜欢的公众号:我自己的:郎瀚威(广告)应用端研究:海外独角兽哥飞白鲸出海Super黄的念想数字生命卡兹克深思senseAl硅兔赛跑特工宇宙宏观:孔某人的低维认知共识粉碎机小熊跑得快

【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理

目前市面上所有的AI编程工具都可以分为两类。一类是：AI IDE（AI集成开发环境）这类应用通常和开发环境深度集成，比如上面提到的Cursor、Windsurf、Trae这些都属于AI IDE应用。这类工具的最大特点就是：1.它们本身就是一个单独的软件开发工具2.在原有软件开发工具的基础上，通过代码魔改使得该开发工具，具备了AI的功能。而另外一类则是：AI Extensions（AI插件）阿里的「通义灵码」、百度的「文心快码」、字节跳动的「MarsCode」、科大讯飞的「iFlyCode」、GitHub的「Copilot」这类应用都属于AI插件，所谓AI插件，就是这类应用必须被集成进对应的开发环境中才能被使用。比如常用的VSCode和IntelliJ IDEA，我们只要在这两个开发工具的扩展插件中搜索上述的AI应用，就可以直接下载并安装使用了。

2024AIGC法律风险研究报告（更新版）.pdf

4AIGC法律风险研究报告以生成方式划分，当前视频生成可分为文生视频、图生视频与视频生视频。视频生成（video generation）也涉及深度学习技术，如GANs和Video Diffusion，现在的主流生成模型为扩散模型（Diffusion model）。视频生成可用于各种领域，如娱乐、体育分析和自动驾驶。视频生成经常可以看到与语音生成（speech generation）一起使用。用于语音生成的模型可以由Tranformers提供。语音生成可用于文本到语音的转换、虚拟助手和语音克隆。这类Generative AI用于生成音频信号，如音乐、语音或其他声音。常用的技术包括循环神经网络（RNNs）、长短时记忆网络（LSTMs）、WaveNet等。[heading1]一些具有代表性的海外项目：[content]➢Sora（OpenAI）：以扩散Transformer模型为核心，能够生成长达一分钟的高保真视频。支持文本生成视频、视频生成视频、图像生成视频，被定位为世界模拟器，在文本理解方面有出色表现，还能在单个生成的视频中创建多个镜头，保留角色和视觉风格。➢Genie（Google）：采用ST-transformer架构，包括三个关键组件即潜在动作模型、视频分词器与动力学模型，拥有110亿参数，被定位为基础世界模型，可通过单张图像提示生成交互式环境。➢WaveNet（DeepMind）：一种生成模型，可以生成非常逼真的人类语音。➢MuseNet（OpenAI）：一种生成音乐的AI模型，可以在多种风格和乐器之间进行组合。➢Multilingual v2（ElevenLabs）：一种语音生成模型，支持28种语言的语音合成服务。