Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

纯小白对于模型等等都没有任何概念能看懂吗

Answer

对于纯小白来说,理解模型等相关概念是有一定挑战的,但通过以下内容可以逐步入门:

Tusiart 相关概念

  1. 首页包含模型、帖子、排行榜,其中发布了各种模型和生成的图片。不同模型有 checkpoint 和 lora 两种标签,有的还有 XL 标签属于 SDXL 新模型。点击可查看模型详细信息,下方是返图区。
  2. 基础模型(checkpoint)是生图必需的,任何生图操作都要先选定。它与 lora 不同,lora 是低阶自适应模型,类似小插件,可有可无,但对细节控制有价值,旁边的数值是其权重。
  3. ControlNet 可控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。
  4. VAE 是编码器,类似滤镜,调整生图饱和度,一般选择 840000 这个。
  5. Prompt 提示词是想要 AI 生成的内容,负向提示词是想要 AI 避免产生的内容。
  6. 图生图是上传图片后,sd 根据图片、模型及输入信息重绘,重绘幅度越大,输出图与输入图差别越大。

AI 技术原理相关概念

  1. 生成式 AI 生成的内容称为 AIGC。
  2. 相关技术名词:
    • AI 即人工智能。
    • 机器学习是电脑找规律学习,包括监督学习(有标签的训练数据,学习输入和输出映射关系,包括分类和回归)、无监督学习(学习数据无标签,算法自主发现规律,如聚类)、强化学习(从反馈学习,最大化奖励或最小化损失,类似训小狗)。
    • 深度学习是一种参照人脑的方法,有神经网络和神经元,神经网络可用于多种学习。
    • 生成式 AI 可生成文本、图片、音频、视频等。
    • LLM 是大语言模型,生成图像的扩散模型不是大语言模型,有的大语言模型如谷歌的 BERT 模型可用于语义理解。
  3. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出 Transformer 模型,它基于自注意力机制处理序列数据,比 RNN 更适合处理文本长距离依赖性。
Content generated by AI large model, please carefully verify (powered by aily)

References

Tusiart简易上手教程

1.首页-模型\帖子\排行榜:发布了其他大手子炼成的模型、图片。不同的模型有checkpoint和lora两种不同的标签,有些模型的标签后面还有第二个XL的标签,这是属于SDXL这个新模型的意思。点击后可以看模型的详细信息。模型详情信息的下方,是用这个模型生成的图片,俗称返图区。1.基础模型:生图必需的,英文名Checkpoint。任何生图操作必须要选定一个checkpoint模型才能开始操作。注意,checkpoint区别于lora,这两个东西在模型广场都是混着展示的。checkpoint必选,lora可选可不选,任何主题的作图需求,都可以试着在模型广场上搜索或者浏览,然后收集到模型库中用于生图。1.lora:低阶自适应模型,你可以理解为checkpoint的小插件,生图的时候lora可有可无。但是lora的价值还是很明显的,基本上你看到一些精细的控制,如面部、材质、物品等等细节都常见于用相应的lora进行控制。旁边的数值是lora的权重。1.ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。1.VAE:是个编码器,功能类似于我们熟悉的滤镜,调整生图的饱和度。无脑选择右侧截图中840000这个即可。1.Prompt提示词:想要AI生成的内容(不绝对有效,需要多费功夫学习,哪怕从照抄别人开始)。2.负向提示词Negative Prompt:想要AI避免产生的内容(不绝对有效,也需要费功夫学,哪怕从照抄别人开始)。1.图生图:上传图片之后,sd将根据你的图片和你选择的模型以及输入的prompt等等信息进行重绘。重绘幅度越大,输出的图和输入的图差别就越大。

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。

Others are asking
我是一个纯小白如何学习AI具体罗列一个过程
以下是为纯小白学习 AI 罗列的一个过程: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库查看大家实践后的作品、文章分享,并分享自己实践后的成果。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 另外,对于中学生学习 AI,建议: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始学习,学习编程语法、数据结构、算法等基础知识。 2. 尝试使用 AI 工具和平台: 可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。 探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。 思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 需要注意的是,以上内容部分由 AI 大模型生成,请仔细甄别。同时,像《雪梅 May 的 AI 学习日记》中提到的,如果您是纯小白,还可以参考其学习模式,即输入→模仿→自发创造,并且根据自己的时间和兴趣进行学习,学习资源大多是免费开源的。
2025-03-14
纯小白,要如何入行Ai Agent
对于纯小白入行 AI Agent,以下是一些建议: 1. 学习与实践并进:像元子一样,从简单的需求表达开始,逐渐熟练掌握,多尝试不同的 AI 工具,选定自己感兴趣的方向,如 AI Agent。可以参考社区小伙伴的 100 天 AI 之路,如《雪梅 May 的 AI 学习日记》。 2. 勇于提问:不要害怕问“笨”问题,多直接向 AI 提问。 3. 注重积累:解决一个小问题也是进步,不积跬步无以至千里。 4. 多试多练:这是掌握 AI Agent 的关键,还可以加入社区共同学习。 5. 学以致用:将 AI 融入生活和工作,学完就用,保持学习的动力和持久性。 在实际操作方面,参考一泽 Eze 的方法: 1. 梳理思路:理解 Prompt 工程中通过逻辑思考从知识经验中抽象关键方法与要求的理念,并将其应用于 Coze 中创建 AI Agent。 2. 搭建工作流驱动的 Agent 分为三个步骤: 规划:制定任务的关键方法,包括总结任务目标与执行形式,将任务分解为可管理的子任务,确立逻辑顺序和依赖关系,设计每个子任务的执行方法。 实施:在 Coze 上搭建工作流框架,设定每个节点的逻辑关系,详细配置子任务节点,并验证每个子任务的可用性。 完善:整体试运行 Agent,识别功能和性能的卡点,通过反复测试和迭代,优化至达到预期水平。然后从制定关键方法与流程,梳理「结构化外文精读专家」Agent 的任务目标。
2025-03-06
作为一个纯小白,如何入行AI行业?
对于纯小白入行 AI 行业,可以参考以下几点: 1. 从 prompt 入手:在 AI 生成原理的基础上,写好 prompt 能提高问问题和解决问题的效率,可临时用 prompt 解决具体问题。 2. 参与小项目实践:像玩过图形化编程的人,可在 Claude 和他人帮助下,用 Unity 开发小游戏,如做一个 2D 平面上用方向键控制走动且碰到墙壁能停下的小人,通过小项目明白背后原理,再开发复杂项目。但过程中可能会遇到挫折,如问题描述不清导致错误指引、AI 给出的方案复杂或代码正确但其他配置错误等,所以最好有人类导师拆解任务、设计学习路径并随时提供帮助。 3. 学习路径: 初期懵懵懂懂,学会简单表达需求。 逐渐熟练掌握更具体的需求表述。 多尝试各种常规 AI 工具,选定持续发展的方向,如 AI Agent。 多参加相关比赛。 4. 学习心得: 不要怕问“笨”问题,但多直接问 AI。 解决小问题也是进步,不积跬步无以至千里。 多试多练,来社区共学,一群人走得更远。 融入生活和工作,学完就用,不要纯靠意志力。 5. 在工作中,可利用 AI 快速生成报告、整理数据、翻译文件、优化文案等。 您还可以参考社区小伙伴的 100 天 AI 之路,如《雪梅 May 的 AI 学习日记》挑战 100 天和 AI 做朋友:https://waytoagi.feishu.cn/wiki/IFRbwRSYKi085xkJwVmc6BCNngb?table=tblHgpm6a5ric3KB&view=vewxxF51yJ
2025-03-06
对于编程纯小白,如果我想使用cursor之类的AI软件进行编程,实现自己的一些想法,那么我需要具备哪些编程或者计算机方面的基础知识
对于编程纯小白,如果想使用 Cursor 之类的 AI 软件进行编程实现自己的想法,需要具备以下编程或计算机方面的基础知识: 1. 下载 Cursor:访问 https://www.cursor.com/ 进行下载。 2. 注册账号:可以使用自己的邮箱(如 google、github、163、qq 邮箱)直接登录,接受二维码登录。 3. 安装中文包插件。 4. 在设置中进行 Rule for AI 配置。 5. 清晰表达需求:例如做一个贪吃蛇游戏,在网页中玩。需要明确游戏的规则和逻辑,如游戏界面是在矩形网格上进行,玩家控制蛇的移动方向(上、下、左、右),游戏界面上会随机出现食物,蛇吃到食物身体增长,存在撞墙或撞自己的死亡条件,吃到食物可得分,游戏难度会递增,游戏结束时能看到得分等。 对于纯小白,如果需求远比 AI 直出的内容复杂,无法一次性直出,那就需要耐下性子,在 AI 的帮助下一步一步来,并在这个过程中学会一点点编程。
2025-02-08
AI领域,传统机器学习,nlp,深度学习,大语言模型,rag,agent,请生成一张让普通人能看懂的AI领域概念图
以下是为您生成的 AI 领域概念图的相关解释: 人工智能(AI):一种目标,让机器展现智慧。 生成式人工智能(GenAI):一种目标,让机器产生复杂有结构的内容。 机器学习:一种手段,让机器自动从资料中找到公式,包括监督学习、无监督学习、强化学习。 监督学习:有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律,如聚类。 强化学习:从反馈里学习,最大化奖励或最小化损失。 深度学习:一种更厉害的手段,参照人脑有神经网络和神经元(因为有很多层所以叫深度),神经网络可用于多种学习方式。 大语言模型(LLM):是一类具有大量参数的“深度学习”模型。对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 AIGC(Artificial Intelligence Generated Content):利用人工智能技术生成内容的新型生产方式,包括文本、图像、音频和视频等内容。 ChatGPT:一个应用实例,通过投喂大量资料预训练后,会通过聊天玩“文字接龙游戏”。它是美国 OpenAI 公司开发的一款基于大型语言模型(LLM)的对话机器人,能够根据用户的输入生成连贯且相关的文本回复。 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,比 RNN 更适合处理文本的长距离依赖性。
2025-02-11
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
准确的讲述垂直大模型的概念,国内外的应用现状、场景,发展趋势,最好能附带图片。内容尽量详细、逻辑通顺。
垂直大模型是专注于特定领域的大模型,例如小语种交流、临床医学、AI 蛋白质结构预测等。 在国内,大模型分为通用模型如文心一言、讯飞星火等,处理自然语言;也有垂直模型专注特定领域。 大模型因其强大的语言理解和生成能力,在多个领域和应用场景中表现出色。比较火的应用场景包括: 1. 文本生成和内容创作:撰写文章、生成新闻报道、创作诗歌和故事等。 2. 聊天机器人和虚拟助手:提供客户服务、日常任务提醒和信息咨询等服务。 3. 编程和代码辅助:代码自动补全、bug 修复和代码解释。 4. 翻译和跨语言通信:促进不同语言背景的用户之间的沟通和信息共享。 5. 情感分析和意见挖掘:为市场研究和产品改进提供数据支持。 6. 教育和学习辅助:创建个性化的学习材料、自动回答学生问题和提供语言学习支持。 7. 图像和视频生成:如 DALLE 等模型可以根据文本描述生成相应的图像,甚至在未来可能扩展到视频内容的生成。 8. 游戏开发和互动体验:创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。 9. 医疗和健康咨询:理解和回答医疗相关的问题,提供初步的健康建议和医疗信息查询服务。 10. 法律和合规咨询:帮助解读法律文件,提供合规建议,降低法律服务的门槛。 关于发展趋势,尽管当前市场以基础大模型为主,但将大模型与行业专业知识结合,以满足不同行业的需求,成为未来发展的关键。例如腾讯研究院的《行业大模型调研报告》指出,如何将大模型与行业专业知识结合是重点。同时,在发展过程中也需要注意其在隐私、安全和伦理方面的挑战。 很抱歉,暂时无法为您提供相关图片。
2025-04-11
用文生图来画插画风格的系统流程图、概念图有哪些快速上手的prompt、平台和教程
以下是关于用文生图来画插画风格的系统流程图、概念图的快速上手的 prompt、平台和教程: 平台:Tusiart Prompt 提示词: 用英文写您想要 AI 生成的内容,不用管语法,仅使用单词和短语的组合去表达需求,单词、短语之间用英文半角逗号隔开。 描述逻辑通常包括人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。 教程: 1. 定主题:确定您需要生成的图的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:按照主题找内容贴近的 checkpoint,如麦橘、墨幽的系列模型。 3. 选择 lora:在生成内容基础上,寻找内容重叠的 lora 以控制图片效果及质量。 4. ControlNet:可控制图片中特定图像,如人物姿态、特定文字等,高阶技能可后续学习。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. 负向提示词 Negative Prompt:用英文写您想要 AI 避免产生的内容,单词和短语组合,中间用英文半角逗号隔开。 8. 采样算法:一般选 DPM++2M Karras,也可留意 checkpoint 详情页上模型作者推荐的采样器。 9. 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 10. 尺寸:根据喜好和需求选择。 辅助网站: 1. http://www.atoolbox.net/ :通过选项卡方式快速填写关键词信息。 2. https://ai.dawnmark.cn/ :每种参数有缩略图参考,更直观选择提示词。 3. https://civitai.com/ :可抄作业,复制图片的详细参数用于生成。 下次作图时,可先选择模板,点击倒数第二个按钮快速输入标准提示词。
2025-03-28
AI agt 是很么概念
AI Agent 是一种智能代理系统,具有以下特点和概念: 是从年前到现在比较火的概念,被认为是大模型未来的主要发展方向。 中间的“智能体”通常是 LLM 或大模型,通过为其增加工具、记忆、行动、规划这四个能力来实现。 目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 准确来说,指的是一种智能代理系统,接近人类大脑,可形成记忆、达成行动规划、自动交互、主动预测。 目前其概念在市场上未达成共识,存在被滥用现象。 应用特点包括个性化,能随着用户使用了解用户习惯和想法并作出喜好预测;能自主完成任务,如 Auto GPT 可在用户输入目标后自主执行任务、递归开发和调试代码;能实现多 Agent 协作,如斯坦福大学的 SmallVille 项目。 应用大多集中在 2B 场景,面向个人消费者的产品少。 包括 Chain(通常一个 AI Agent 可能由多个 Chain 组成)、Router(可使用判定让 Agent 走向不同的 Chain)、Tool(Agent 上的一次工具调用)等概念。 例如微信虚拟女友中的 AI Agent 包括 Responser Agent(主 agent,用于回复用户)、Background Agent(背景 agent,用于推进角色当前状态)、Daily Agent(用于生成剧本、配套图片和每日朋友圈)。
2025-03-28
NLP相关概念
以下是关于 NLP 相关概念的详细介绍: 一、NLP、NLU、NLG 的关系 自然语言处理(NLP)中包含了自然语言理解(NLU)和自然语言生成(NLG)。 二、NLP 的定义 自然语言处理(Natural Language Processing,NLP)是研究人与计算机之间使用自然语言进行有效通信,希望机器能像人一样具备正常人的语言理解能力。有别于计算机语言,“自然语言”是人类发展过程中形成的一种信息交流方式,包括汉语、英语、法语等世界上所有的语种语言。“处理”包含理解、转化、生成等过程。“自然语言处理”就是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工,以实现人机间的信息交流。 三、NLP 的用途 如文字校对、信息检索、机器翻译、问答系统、聊天机器人、文章摘要、舆情监测、情绪分析等都涉及到 NLP 相关技术。 四、NLP 的技术原理 按照内容构成的层次,NLP 的基本技术原理可以分成 5 个层次: 1. 词法分析:找到词汇的各个词素,从中获得语言学信息。 2. 句法分析:对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用。 3. 语义分析:找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。 4. 篇章分析:分析篇章结构,识别不同部分之间的语义联系,结合内外部信息,在整体上理解篇章。 5. 内容生成 五、NLU 专注于让计算机理解人类语言的含义。NLU 系统试图理解句子和词语背后的含义,而不是仅仅处理单个词语。NLU 能够识别文本中的情感、意图和实体,并将其转化为计算机可以理解的结构化信息。 六、NLG 专注于让计算机生成人类可以理解的语言。NLG 系统将结构化数据转化为自然语言文本,例如新闻报道、产品描述、聊天机器人回复等。NLG 能够根据不同的需求和场景,生成不同风格和语气的文本。 七、NLP 任务 主要包含 3 大类任务: 1. 自然语言理解任务(NLU,Natural Language Understanding):特点是能看到完整上下文信息,然后做广义分类任务,典型任务如文本情感分析,词性标注,信息检索等。 2. 有条件自然语言生成任务(conditionedNLG,Natural Language Generation):特点是 seq2seq,典型任务例如机器翻译,自动摘要等。 3. 无条件自然语言生成任务(unconditionedNLG):特点是开放性的句子生成,典型任务如问答系统(QA)、对话机器人(ChatBot)等。一开始针对不同任务会使用不同的模型,后来发现 NLG 任务能通过 incontext learning + prompt 来完成 NLU 任务,于是逐渐收敛到了 NLG 任务。
2025-03-24
介绍AI基本概念和目前发展阶段
AI 的基本概念: 人工智能(AI)是指让计算机模拟人类智能的技术。 主要分支包括机器学习、深度学习、自然语言处理等,它们之间存在密切联系。 目前发展阶段: 已取得显著进展,如聊天机器人具备基本对话能力,能用于客户服务和简单查询响应。 推理者如 ChatGPT 能解决复杂问题并提供详细分析和意见。 智能体虽能执行部分自动化业务,但仍需人类参与。 创新者如谷歌 DeepMind 的 AlphaFold 模型能协助人类完成新发明。 最高级别的组织型 AI 能自动执行组织的全部业务流程,但尚未完全实现。 对于新手学习 AI: 建议阅读「」熟悉术语和基础概念。 浏览入门文章了解历史、应用和发展趋势。 在「」中找到初学者课程,特别推荐李宏毅老师的课程。 通过在线教育平台按自己节奏学习并获取证书。 根据兴趣选择特定模块深入学习,掌握提示词技巧。 理论学习后进行实践,尝试使用各种产品并分享实践成果。 体验如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人。 如果希望继续精进 AI: 了解 AI 背景知识,包括基础理论、历史发展。 掌握数学基础,如统计学、线性代数、概率论。 熟悉算法和模型,如监督学习、无监督学习、强化学习。 学会评估和调优模型性能。 了解神经网络基础,包括网络结构和激活函数。
2025-03-20
描述相关概念的时候需要给ai什么指令
以下是关于给 AI 描述相关概念时的一些指令示例: 在法律法规方面,如《人工智能法案》中,指令包括发布年度报告以评估法规实施情况、审查严重事件报告、协助建立监管沙箱、组织与相关机构的会议和咨询等。 对于 Midjourney 生成 UI 界面,若指定生成某个页面(如首页、登录页等),可添加页面指令描述,如“landing page”“Profile Page”等。对于社交平台,关键词“landing page”可生成社交平台的登录页设计;对于信息类,关键词“Profile Page”可生成人力资源类产品的个人资料页。 需要注意的是,目前 Midjourney 产出的设计图更适合在 APP 设计的初始阶段提供灵感和创意,直接落地开发仍有距离,但随着 AI 技术的迭代,这种距离有望缩短。
2025-03-16