Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我是一个零基础的小白用户,可以给我制定一个周期为两个月的关于大模型知识的学习计划么

Answer

以下是为您制定的一个为期两个月的大模型知识学习计划:

第一个月:

  • 第一周:
    • 了解 AI 的基本概念,包括人工智能、机器学习、监督学习、无监督学习和强化学习等。
    • 熟悉生成式 AI 生成的内容(AIGC)。
  • 第二周:
    • 深入学习大语言模型(LLM)的概念,区分其与其他生成式 AI 模型的不同。
    • 研究 Transformer 模型,理解其基于自注意力机制处理序列数据的原理。
  • 第三周:
    • 学习不同类型的大模型架构,如 encoder-only、encoder-decoder 和 decoder-only 模型,并了解其应用场景。
    • 了解大模型预训练数据的来源和规模。
  • 第四周:
    • 研究大模型的参数规模和其对性能的影响。
    • 分析大模型在自然语言处理中的任务,如分类、情感分析、翻译和摘要等。

第二个月:

  • 第一周:
    • 比较不同大模型的特点和优势,如 GPT-3 和 ChatGPT。
    • 学习大模型在安全性方面的问题和挑战。
  • 第二周:
    • 探索大模型在实际应用中的案例,如文本生成、故事写作等。
    • 了解大模型的发展趋势和未来方向。
  • 第三周:
    • 复习和巩固之前所学的大模型知识,查漏补缺。
    • 尝试自己动手实践一些简单的大模型应用。
  • 第四周:
    • 总结所学的大模型知识,形成自己的理解和体系。
    • 思考如何将大模型知识应用到实际工作或学习中。
Content generated by AI large model, please carefully verify (powered by aily)

References

从 0 到 1 了解大模型安全,看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。

Others are asking
作为AI小白,需要一些AI常用专业术语的名词解释
以下是一些 AI 常用专业术语的名词解释: Agents(智能体):一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,无需人类驱动每一部分的交互。 ASI(人工超级智能):尽管存在争议,但通常被定义为超越人类思维能力的人工智能。 Attention(注意力):在神经网络的上下文中,有助于模型在生成输出时专注于输入的相关部分。 Bias(偏差):AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。 Chatbot(聊天机器人):一种计算机程序,旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。 CLIP(对比语言图像预训练):由 OpenAI 开发的 AI 模型,用于连接图像和文本,使其能够理解和生成图像的描述。 Gradient Descent(梯度下降):在机器学习中,是一种优化方法,根据模型损失函数的最大改进方向逐渐调整模型的参数。 Hallucinate,Hallucination(幻觉):在人工智能的背景下,指模型生成的内容不是基于实际数据或与现实明显不同的现象。 Hidden Layer(隐藏层):神经网络中不直接连接到输入或输出的人工神经元层。 Hyperparameter Tuning(超参数调优):为机器学习模型的超参数(不是从数据中学习的参数)选择适当值的过程。 Inference(推理):使用经过训练的机器学习模型进行预测的过程。 Instruction Tuning(指令调优):机器学习中的一种技术,其中模型根据数据集中给出的特定指令进行微调。 Latent Space(潜在空间):在机器学习中,指模型创建的数据的压缩表示形式。类似的数据点在潜在空间中更接近。 Compute(计算):用于训练或运行 AI 模型的计算资源(如 CPU 或 GPU 时间)。 CNN(卷积神经网络):一种深度学习模型,通过应用一系列过滤器来处理具有网格状拓扑(例如图像)的数据。通常用于图像识别任务。 Data Augmentation(数据增强):通过添加现有数据的略微修改的副本来增加用于训练模型的数据量和多样性的过程。 Double Descent(双降):机器学习中的一种现象,其中模型性能随着复杂性的增加而提高,然后变差,然后再次提高。 EndtoEnd Learning(端到端学习):一种不需要手动设计功能的机器学习模型。该模型只是提供原始数据,并期望从这些输入中学习。 Expert Systems(专家系统):人工智能技术的应用,为特定领域的复杂问题提供解决方案。 XAI(可解释的人工智能):Explainable AI,人工智能的一个子领域专注于创建透明的模型,为其决策提供清晰易懂的解释。
2025-04-18
作为一个想要使用AI工具提升工作效率的AI小白,我已经学习了怎么编写prompt,接下来我应该学习什么
如果您已经学习了如何编写 prompt ,接下来可以学习以下内容: 1. 理解 Token 限制:形成“当前消耗了多少 Token”的自然体感,把握有效记忆长度,避免在超过限制时得到失忆的回答。同时,编写 Prompt 时要珍惜 Token ,秉承奥卡姆剃刀原理,精简表达,尤其是在连续多轮对话中。 熟练使用中英文切换,若 Prompt 太长可用英文设定并要求中文输出,节省 Token 用于更多对话。 了解自带方法论的英文短语或句子,如“Chain of thought”。 2. 学习精准控制生成式人工智能:重点学习提示词技术,编写更清晰、精确的指令,引导 AI 工具产生所需结果。 探索构建智能体(AI Agents),将工作单元切割开,赋予其特定角色和任务,协同工作提高效率。 在实际应用中遵循准则,如彻底变“懒人”、能动嘴不动手、能让 AI 做的就不自己动手、构建自己的智能体、根据结果反馈调整智能体、定期审视工作流程看哪些部分可用更多 AI 。 3. 若想进一步提升: 学习搭建专业知识库、构建系统知识体系,用于驱动工作和个人爱好创作。 注重个人能力提升,尤其是学习能力和创造能力。 您还可以结合自身生活或工作场景,想一个能简单自动化的场景,如自动给班级孩子起昵称、排版运营文案、安排减脂餐、列学习计划、设计调研问卷等。选一个好上手的提示词框架开启第一次有效编写,比如从基础的“情境:”开始。
2025-04-15
ai小白学习课程
对于 AI 小白的学习课程,建议如下: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,能找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,还有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库有很多实践后的作品、文章分享,欢迎实践后分享。 5. 体验 AI 产品: 与现有的 AI 产品如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人互动,了解其工作原理和交互方式。 另外,如果让我推荐一门 AI 课,比如【野菩萨】的课程: 1. 预习周课程:包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。 2. 基础操作课:涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影 穿越的大门等内容。 3. 核心范式课程:涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 4. SD WebUi 体系课程:包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 5. ChatGPT 体系课程:有 ChatGPT 基础、核心 文风、格式、思维模型等内容。 6. ComfyUI 与 AI 动画课程:包含部署和基本概念、基础工作流搭建、动画工作流搭建等。 7. 应对 SORA 的视听语言课程:涉及通识 欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。 免费课程机会:如果想要免费获得这门课程,可以来参与 video battle,这是唯一一个获胜者就可以拥有课程的机会。每期的 video battle 的评委野菩萨老师都非常严格,需要寓意深度审美并存。 冠军奖励:4980 课程一份 亚军奖励:3980 课程一份 季军奖励:1980 课程一份 入围奖励:598 野神殿门票一张 扫码添加菩萨老师助理,了解更多课程信息。 对于纯小白,还可以参考以下: |分类|标题|文章链接|视频链接|适用人群|简要说明| ||||||| |通识篇|现有常见 AI 工具小白扫盲|(1 小时 32 分开始)|对 AI 都没太多概念的纯纯小白|给与 AI 之间有道墙、还在墙外的人简单介绍当前各种 AI 工具、0 成本最快速感受当下 AI 工具的力量| |通识篇|AI 常见名词、缩写解释|结合食用|
2025-04-15
ai小白学习课程
对于 AI 小白的学习课程,建议如下: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,能找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,还有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库有很多实践后的作品、文章分享,欢迎实践后分享。 5. 体验 AI 产品: 与现有的 AI 产品如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人互动,了解其工作原理和交互方式。 另外,如果让我推荐一门 AI 课,比如【野菩萨】的课程: 1. 预习周课程:包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。 2. 基础操作课:涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影 穿越的大门等内容。 3. 核心范式课程:涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 4. SD WebUi 体系课程:包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 5. ChatGPT 体系课程:有 ChatGPT 基础、核心 文风、格式、思维模型等内容。 6. ComfyUI 与 AI 动画课程:包含部署和基本概念、基础工作流搭建、动画工作流搭建等。 7. 应对 SORA 的视听语言课程:涉及通识 欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。 免费课程机会:如果想要免费获得这门课程,可以来参与 video battle,这是唯一一个获胜者就可以拥有课程的机会。每期的 video battle 的评委野菩萨老师都非常严格,需要寓意深度审美并存。 冠军奖励:4980 课程一份 亚军奖励:3980 课程一份 季军奖励:1980 课程一份 入围奖励:598 野神殿门票一张 扫码添加菩萨老师助理,了解更多课程信息。 对于纯小白,还可以参考以下: |分类|标题|文章链接|视频链接|适用人群|简要说明| ||||||| |通识篇|现有常见 AI 工具小白扫盲|(1 小时 32 分开始)|对 AI 都没太多概念的纯纯小白|给与 AI 之间有道墙、还在墙外的人简单介绍当前各种 AI 工具、0 成本最快速感受当下 AI 工具的力量| |通识篇|AI 常见名词、缩写解释|结合食用|
2025-04-15
作为一个小白,如何开始ai编程
以下是小白开始 AI 编程的步骤和相关建议: 直接上手: AI 编程就像一场 PUA 和提问大赛。 要分辨 Chat 和 Composer 两个模式。Chat 模式可与大模型对话,但常用的是 Composer 模式,它能即时反馈,直接创建文件、填写代码并询问您是否满意。 例如,在 Composer 模式下输入“给我创建一个 2048 的网页游戏吧”,1 2 分钟后会生成相关文件。 生成文件后,可打开文件夹找到 index.html 双击查看本地运行效果。若环境报错双击打不开,可截图在 Composer 对话框询问解决方法。 思想准备: 对于小白来说,因为无知会充满勇气和忧虑。能从心理上面对“我或许能行”这件事,可能就解决了 AI 编程问题的一半。 后续探索: 作者将继续探索并更新相关文章,包括: 第一弹,一点小小的震撼——cursor 黑客松。 第二弹,文案工作者的福音——cursor 批量写 prompt、写文章。 第三弹,上一辈的崛起——cursor 的“向上”,给爹妈一场安利。 如果想要交流或了解更多,欢迎戳这里:
2025-04-14
如果是小白新手,理论应用到实践中最重要的是什么
对于小白新手,将理论应用到实践中,以下几点最为重要: 1. 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅:在「」中,可找到为初学者设计的课程,特别推荐李宏毅老师的课程。还可通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习,并争取获得证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛,如图像、音乐、视频等,可根据自身兴趣选择特定模块深入学习,同时掌握提示词技巧。 4. 实践和尝试:理论学习后,实践是巩固知识的关键。尝试使用各种产品做出作品,知识库中有很多实践后的作品和文章分享,欢迎分享自己的实践成果。 5. 体验 AI 产品:与现有的 AI 产品如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人互动,了解其工作原理和交互方式,获得对 AI 实际应用表现的第一手体验,激发对 AI 潜力的认识。 此外,就像有人认为“只要知道它的原理和历史,自然而然就会知道它的底线和顶点在哪里”,但实践中的体验和尝试同样不可或缺。
2025-04-13
目前有哪些AI可以支持对用户上传的视频进行理解分析?
目前以下 AI 可以支持对用户上传的视频进行理解分析: 1. Gemini 2.0 Flash Thinking:是解析视频的不错选择,可在 AIStudio(访问 aistudio.google.com,需海外 IP)上传视频进行解析。 2. MiniMax 视频模型:能准确识别用户上传的图片,生成的视频在形象保持、光影色调、指令响应、表情呈现等方面表现出色,还支持 2000 字提示词以更精准调控。 3. 百炼大模型平台:应用广场里的影视传媒视频理解能力可对视频进行语音转写、视觉语言分析等处理并总结成文,有清晰使用步骤,还能根据偏好调试提示词。
2025-04-09
excel表格导出的用户的对话记录,来进行自定义标签并打标,有哪些好用的现成方案或者工具
目前在 Excel 表格导出的用户对话记录进行自定义标签并打标方面,以下是一些常见且好用的工具和方案: 1. Microsoft Excel 本身:可以利用其数据筛选、排序和函数功能来辅助标签和打标。 2. Google Sheets:具有类似 Excel 的功能,且在线协作方便。 3. R 语言:通过编程实现复杂的数据分析和标签处理。 4. Python 及相关库,如 Pandas:能够灵活处理数据和进行标签操作。 但具体选择哪种方案或工具,取决于您的具体需求、技术水平和使用习惯。
2025-04-07
如果面试AI产品经理岗位,我的简历应该如何介绍对应的AI项目?目前我在做的是一个AI深度解读的功能,用户通过报告页面进行深度解读,进入后触发AI与用户的沟通,根据沟通信息,将用户的一些情况写在病历信息中,最终发给医生
以下是为您提供的一些参考,帮助您在面试 AI 产品经理岗位时介绍对应的 AI 项目: 在您所做的 AI 深度解读功能项目中,可以从以下几个方面进行介绍: 项目背景:阐述开展该项目的原因和目标,例如为了提升医疗服务的效率和准确性,满足用户对深度医疗解读的需求等。 项目职责:详细说明您在项目中的具体职责,如需求分析、产品规划、与开发团队协作、与用户沟通获取反馈等。 技术实现:描述项目中所运用的关键技术,如触发 AI 与用户沟通的机制、如何将用户信息写入病历等。 用户体验优化:提及为提升用户体验所采取的措施,比如优化报告页面的设计、提高 AI 沟通的自然度和准确性等。 成果与效益:展示项目取得的成果,如提高了医生的诊断效率、提升了用户满意度等。 此外,您还可以参考以下其他相关人员的项目经验: 秦超作为 AI 2C 项目负责人,在产品落地服务方面具有丰富的经验,包括产品、技术架构以及项目管理等。 Cici?在 AI 算法开发领域,将宠物与 AI 结合,具备 AI 产品研发和创业经验。 11 鸭鸭呀作为产品经理,在智能写作产品方面有 Prompt 撰写和 AI 应用的经验。 枫 share 作为产品经理,熟悉 ChatGPT,写过 prompt,使用过多种 AI 创作工具,并正在寻找 AI 方向的产品岗位。 行远作为产品经理,熟悉 prompt,部署过多种绘图项目,使用过多款 AI 创作工具,期待学习和实战案例应用。 希望以上内容对您有所帮助,祝您面试成功!
2025-04-01
罗列具体的AI模型产品和具体的AI技术创新点,并总结AI技术的发展趋势,并说明这些发展趋势为用户的交互体验带来了什么样的改变?按照时间线将以上内容梳理出来
以下是按照您的需求梳理的内容: 时间线 早期: 从图灵测试、早期的图灵机器人和 ELISA 开始,到 IBM 的语音控制打印机、完全由人工智能创作的小说、微软的同声传译系统。 近年来: OpenAI 发布 ChatGPT 模型,引发用户习惯从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 大模型创新方面,架构优化加速涌现,融合迭代成为趋势。Scaling Law 泛化,推理能力成为关键,倒逼计算和数据变革。AGI 探索中,视频生成点燃世界模型,空间智能统一虚拟和现实。 在应用方面,AI 在文科白领的个人助理、呼叫中心、文本处理和教育等领域表现出色,能完成 80%到 90%的工作;对于工科白领,特别是程序员,能简化代码检索和调整;在蓝领领域,自动驾驶取得显著进展。但在复杂任务方面仍有改进空间。 第一轮洗牌结束,聚焦 20 赛道 5 大场景,多领域竞速中运营大于技术,AI 助手成为竞争重点。AI+X 赋能类产品发展迅速,原生 AI 爆款难求。多模态上马,Agent 席卷一切,高度个性化呼之欲出。 人工智能发展经历了萌芽、积累沉淀到如今大模型和多模态模型百花齐放的阶段。大模型由数据、算法、算力构成,算法有技术架构的迭代,如英伟达的显卡辅助模型训练,数据质量对生成理想的大模型至关重要。 未来: 李沐预测技术发展可能催生出革命性的应用形态,但 AI 离真正变革世界还有一段距离。 预计 AI 在蓝领工作的初步应用至少需要 5 年时间。 AI 技术创新点: 大模型创新:架构优化加速涌现,融合迭代大势所趋。 Scaling Law 泛化:推理能力成皇冠明珠,倒逼计算和数据变革。 AGI 探索:视频生成点燃世界模型,空间智能统⼀虚拟和现实。 AI 技术的发展趋势: 模型架构不断优化和融合。 更加注重推理能力的提升。 探索 AGI 领域,实现虚拟和现实的统一。 应用格局不断洗牌,聚焦特定赛道和场景。 多模态和 Agent 技术的广泛应用。 对用户交互体验的改变: 用户习惯从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 AI 应用为用户提供辅助,在多个领域帮助完成任务。
2025-03-31
AI技术发展时间线,罗列具体的AI模型产品和具体的AI技术创新点,并总结AI技术的发展趋势,并说明这些发展趋势为用户的交互体验带来了什么样的改变?
以下是关于 AI 技术发展的相关内容: AI 技术发展时间线: 从图灵测试、早期的图灵机器人和 ELISA,到 IBM 的语音控制打印机、完全由人工智能创作的小说、微软的同声传译系统,再到 OpenAI 发布 ChatGPT 模型,经历了萌芽、积累沉淀到如今大模型和多模态模型百花齐放的阶段。 具体的 AI 模型产品: ChatGPT 改变了用户习惯,从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 具体的 AI 技术创新点: 大模型创新方面,架构优化加速涌现,融合迭代成为趋势。 Scaling Law 泛化,推理能力成为皇冠明珠,倒逼计算和数据变革。 AGI 探索中,视频生成点燃世界模型,空间智能统一虚拟和现实。 AI 技术的发展趋势: 大模型创新:架构优化加速涌现,融合迭代大势所趋。 应用格局:第一轮洗牌结束,聚焦 20 赛道 5 大场景。 应用竞争:多领域竞速运营大于技术,AI 助手兵家必争。 应用增长:AI+X 赋能类产品大干快上,原生 AI 爆款难求。 产品趋势:多模态上马,Agent 席卷一切,高度个性化呼之欲出。 智变千行百业:左手变革生产力,右手重塑行业生态。 行业渗透率:数据基础决定初速度,用户需求成为加速度。 创投:投融资马太效应明显,国家队出手频率提升。 对用户交互体验的改变: ChatGPT 使用户从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 在文科白领方面,AI 能完成 80%到 90%的工作,如个人助理、呼叫中心、文本处理和教育等领域。 对于工科白领,特别是程序员,AI 能简化代码检索和调整。 在蓝领领域,AI 在自动驾驶方面取得显著进展。
2025-03-31
如何生成一个根据用户输入的需求推荐旅游地点的智能体
要生成一个根据用户输入的需求推荐旅游地点的智能体,可以参考以下几种方式: 小众打卡地智能体: 基本信息:名称为“小众打卡地”,链接为 https://tbox.alipay.com/pro/share/202412APCyNn00194489?platform=WebService 。 核心价值:为用户发掘非大众化的特色景点,避开人流;提供个性化的旅行建议,并有目的地的图片参考;帮助用户快速获取高质量的旅行参考信息;提供小红书文案,也适合发小红书。 搭建思路重点:录入小红书的相关文案参考知识库;通过文本模型组成搜索词进行搜索,从搜索到的所有网页链接中,通过代码节点提取相关的 url,滤除需要安全认证的网站,挑选非周边城市攻略推荐,尽量检查“小众”或“冷门”;通过 url 网页正文提取相关的小众地点输出,同时通过代码进行打卡点的字符串输出用于后续节点运用;根据需要搜索的小众旅行地进行图片搜索,随机提取一条图片的 url,过滤部分失效的网站;最后的文案输出适合小红书文案和旅行发布参考。 旅行青蛙智能体: 搭建过程开源: 意图分支 1(随机旅行):根据用户的坐标和触发事件,推荐当季适合的旅行景点。可以用大模型实现这一功能(小白适用),也可以用代码或者知识库的方式进行随机抽取。为了让大模型每次输出的地点尽量不同,可以拉高多样性的值。 大模型节点(旅行日记):设定字数、风格,入参是触发事件和上一个大模型输出节点的结果。 大模型节点(为你写诗):添加输入项。 大模型节点(文生图提示词):这个节点是固定前缀提示词,再根据地点和季节进行其它信息的补充。添加输入项。 城市探险家智能体: 智能体功能实现: 基础功能模块: 城市信息库:包括城市基础信息(地理位置、人口、气候等)、文化特色(历史传统、本地习俗、节日活动)、旅游资源(景点、美食、住宿、交通)、实用信息(最佳旅行季节、注意事项、消费水平)。 积分系统:完成探索后获取探索点数,获取方式包括主要景点探索、美食品鉴、文化体验、历史探索、交通探索、隐藏景点发现。 称号系统:等级划分有旅途新手(0 点)、城市漫游者(20 点)、文化探索者(50 点)、环球冒险家(100 点)、旅行大师(200 点)。 推荐系统:基于用户历史分析用户已探索城市类型;根据当前季节推荐适合城市;根据用户兴趣推荐主题路线;结合用户偏好进行个性化定制推荐。 交互功能实现:对话流程包括用户输入城市名称、智能体分析城市类型、生成个性化城市介绍、计算并更新探索点数、检查称号解锁、推荐相关城市。 完整 prompt:先定义好各子系统的规则;在对话流程中调用子系统;测试 prompt 效果,迭代 prompt;调试到理想的输出效果后,开始固定输出模板(在 prompt 内加入输出模板示例);继续测试,直至稳定。
2025-03-31
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14