Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

LSTM/Transformer/GAN等AI技术分别是指

Answer

LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),能够处理长序列数据中的长期依赖关系。

Transformer 是一种完全基于自注意力机制(Self-Attention)来处理序列数据的模型,不依赖于循环神经网络(RNN)或卷积神经网络(CNN),比 RNN 更适合处理文本的长距离依赖性。

GAN(Generative Adversarial Network)即生成对抗网络,由生成器和判别器组成,通过两者的对抗训练来生成新的数据。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。

Others are asking
GAN生成对抗网络
GAN 生成对抗网络是一种无监督的生成模型框架,通过让两个神经网络相互博弈来进行机器学习。它具有以下特点和应用: 特点: 能够生成视觉逼真度高的视频。 控制难度大、时序建模较弱。 与 VAE 变分自编码器、Transformer 自注意力机制等相比,GAN 生成视频速度快,但生成质量和分辨率较低,长度短,控制能力弱。 应用: 可以帮助神经网络用更少的数据进行学习,生成更多的合成图像。 有助于创建图像,还可以创建现实世界的软件模拟,如 Nvidia 大量采用这种技术来增强其现实模拟系统。 同时,当前端到端视频生成仍面临生成时间长、视频质量不稳定、生成的视频语义不连贯、帧间存在闪烁、分辨率较低等问题。针对这些问题,可使用渐进生成、增强时序一致性的模型等方法,以及上述的补帧算法、视频完善策略来在一定程度上缓解。
2024-12-18
GAN
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合了检索和生成的技术。 AI 大模型在生成文本时,其知识通常基于训练时使用的公开数据。若想构建能利用私有数据或实时数据进行推理的 AI 应用,就需要特定信息来增强模型知识,这便是 RAG。 RAG 的基本流程为:首先,针对用户输入(如问题或话题),从数据源(如网页、文档、数据库记录)中检索出相关文本片段,这些片段称为上下文。然后,将用户输入和检索到的上下文拼接成完整输入传递给大模型(如 GPT),输入通常包含提示,指导模型生成期望输出(如答案或摘要)。最后,从大模型输出中提取或格式化所需信息返回给用户。 RAG 由检索器和生成器两部分组成,检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,非常适合处理需要广泛知识的任务,如问答系统,能提供详细准确的回答。
2024-12-18
生成对抗网络 GAN
生成对抗网络(GAN)是一种在 AI 领域非常重要的模型。 GAN 是一种无监督的生成模型框架,通过让两个神经网络相互博弈来进行机器学习。其中一个神经网络(生成器)负责创建图像,另一个神经网络(鉴别器)预测图像是真实的还是伪造的。随着时间的推移,鉴别器变得越来越擅长区分真伪,而生成器则越来越擅长创建逼真的图像。 GAN 在图像生成领域极为引人注目,例如您可能已经听说过的“DeepFake”便是基于这一技术。同时,GAN 也可用于生成视觉逼真度高的视频,但存在控制难度大、时序建模较弱的问题。此外,GAN 生成视频速度快,但生成质量和分辨率较低,长度短,控制能力弱。 GAN 诞生于 2014 年,是 Deep Learning 领域的重要里程碑,它可以帮助神经网络用更少的数据进行学习,生成更多的合成图像,然后用来识别和创建更好的神经网络。GAN 的创造者 Ian Goodfellow 是在蒙特利尔的一个酒吧里想出这个主意的,它由两个神经网络玩着猫捉老鼠的游戏,一个创造出看起来像真实图像的假图像,而另一个则决定它们是否是真的。GAN 不仅有助于创建图像,还可以创建现实世界的软件模拟,Nvidia 就大量采用这种技术来增强他的现实模拟系统。 相关的学习资源包括: 课程地址:https://www.cloudskillsboost.google/course_templates/541 视频学习:https://youtu.be/J0AuVBxzui0
2024-12-11
搜索DragGAN
DragGAN 于 2023 年 6 月 25 日开源。喜欢 AI 绘画的对它应该不陌生,期待它带来更大的惊艳。此外,相关论文中增加了微软研究院新发布的多模态 AI 助手;学习路径中增加了适合初学者的深度学习课程 fast.ai ;AI 名词增加到 80 多个,补充了很多技术名词。您可以通过以下链接获取更多详细信息:
2024-11-11
写一个有关International Organization for Standardization的英文介绍思维导图
以下是为你生成的英文思维导图: ``` International Organization for Standardization | + About ISO | + Founded: 1947 | + Headquarters: Geneva, Switzerland | + Membership: 165 countries | + Purpose: Develop and publish international standards | + Core Values | + Credibility | + Relevance | + Impartiality | + Effectiveness | + Standards Development | + Process: Consultative, Consensual, Transparent | + Types of Standards | + Technical | + Managerial | + Quality | + Environmental | + ISO Standards Examples | + ISO 9001 | + ISO 14001 | + ISO 45001 | + Benefits of ISO Standards | + Facilitate International Trade | + Ensure Quality and Safety | + Promote Best Practices | + Enhance Sustainability | + Stakeholders | + National Standards Bodies | + Industry Experts | + Consumers | + Governments | + ISO's Role in Society | + Economic Development | + Regulatory Compliance | + Consumer Protection | + Environmental Conservation | + ISO's Work Areas | + Agriculture | + Healthcare | + Manufacturing | + Technology | + Services | + Global Reach and Influence | + International Cooperation | + Harmonization of Standards | + Recognition of Standards | + Future Initiatives + Sustainable Development Goals + Digital Transformation + Innovation and Technology ```
2024-06-06
能用简单易懂的方法给我讲一下生成对抗网络GAN的原理和工作流程吗
好的,生成对抗网络(GAN)是一种深度学习模型,由两个神经网络构成:生成器和判别器。生成器的任务是创建新的、看起来像真实数据的样本,而判别器的任务是区分生成的样本和真实的数据样本。这两个网络相互对抗,生成器试图欺骗判别器,而判别器试图不被欺骗。这个过程导致生成器逐渐学会生成越来越逼真的样本。
2024-04-22
什么是Transformer,它的工作流程是什么样
Transformer 是一种在自然语言处理中广泛应用的模型,其工作流程如下: 1. 输入嵌入(Input Embeddings):将每个单词映射为一个向量,即单词嵌入(word embeddings)。例如,“I”映射为一个 512 维的向量。 2. 位置编码(Positional Encodings):由于 Transformer 没有递归或卷积等捕获序列顺序的结构,所以需要给每个词位置加上位置编码,使模型知道词语的相对位置。 3. 编码器(Encoder):输入序列的嵌入向量和位置编码相加后被送入编码器层。编码器由多个相同的层组成,每层有两个核心部分: 多头注意力机制(MultiHead Attention):捕捉单词间的依赖关系。 前馈神经网络(FeedForward NN):对 attention 的结果进行进一步编码。 4. 解码器(Decoder):编码器的输出被送入解码器层。解码器也是由多个相同层组成,每层除了编码器组件外,还有一个额外的注意力模块,对编码器的输出序列建模依赖关系。 5. 输出嵌入(Output Embeddings):解码器最后一层的输出被映射为输出单词概率分布。例如生成单词“我”“是”等概率。 6. 生成(Generation):基于概率分布,以贪婪或 beam search 等解码策略生成完整的输出序列。 注意力机制是 Transformer 最关键的创新,允许模型捕获长距离依赖关系。多头注意力可并行计算,因此高效。残差连接和层归一化则有助于优化网络。整体上,Transformer 无递归和卷积结构,计算并行化程度高,更适合并行加速。 位置编码方面,Transformer 通过一种称为位置编码的创新方法绕过了语序理解的障碍。其思路是将输入序列中的所有单词(如一个英语句子)在每个单词后面加上一个数字,表明它的顺序。从概念上讲,把理解语序的重担从神经网络的结构转移到数据本身。起初,在对 Transformer 进行任何数据训练之前,它并不知道如何解释这些位置编码。但是随着模型看到越来越多的句子和它们的编码,它学会了如何有效地使用它们。最初的作者使用正弦函数来进行位置编码,而不是简单的整数 1、2、3、4,但要点是相同的。将语序存储为数据,而不是靠网络结构,这样神经网络就更容易训练了。
2025-03-21
transformer是通往AGI的必经之路吗?什么是世界模型,当前有哪些进展
Transformer 并非通往 AGI 的必经之路。在已知的 token space 中,Transformer 符合一些条件,但在更通用的场景中不太符合。AI 本质包含一堆 scaling law,一个值得被 scale up 的架构是基础,且架构要支持不断加入更多数据。当前在数据方面,如限定问题的数据生成有进展,但通用问题还没有完全的解法。 世界模型方面,目前的研究正在以指数级别的速度增长。对于语言这种有结构、有规则的指令系统,其逻辑受指向描述变化,如早期语言模型建模中用到的 RNN、LSTM 及当前 LLM 的 Transformer 模型结构,都是对语言序列性所体现逻辑结构的适配。同时也在思考是否存在其他形式的符号化表征及相应的建模结构,以及对于非碳基生物语言的使用情况等。未来通往 AGI 的道路并非简单,需要探寻 RL 与 LLM 的本质普遍性。
2025-03-16
Transformer模型
Transformer 模型是一种基于注意力机制的深度学习模型,由 Vaswani 等人在论文《Attention is All You Need》中提出,用于处理序列到序列的任务,如机器翻译、文本摘要等。其原理主要包括以下几个关键点: 1. 自注意力机制:能够同时考虑输入序列中所有位置的信息,而非像循环神经网络或卷积神经网络一样逐个位置处理。通过自注意力机制,模型可根据输入序列中不同位置的重要程度,动态分配注意力权重,从而更好地捕捉序列中的关系和依赖。 2. 位置编码:由于自注意力机制不考虑输入序列的位置信息,为使模型能够区分不同位置的词语,Transformer 模型引入了位置编码。位置编码是一种特殊的向量,与输入词向量相加,用于表示词语在序列中的位置信息。位置编码通常基于正弦和余弦函数计算得到的固定向量,可帮助模型学习到位置信息的表示。 3. 多头注意力机制:通过引入多头注意力机制,可以并行地学习多个注意力表示,从不同的子空间中学习不同的特征表示。每个注意力头都是通过将输入序列线性变换成查询、键和值向量,并计算注意力分数,然后将多个头的输出拼接在一起得到最终的注意力表示。 4. 残差连接和层归一化:在每个子层(SelfAttention 层和前馈神经网络层)的输入和输出之间都引入了残差连接,并对输出进行层归一化。残差连接可缓解梯度消失和梯度爆炸问题,使得模型更容易训练和优化;层归一化可加速训练过程,并提高模型的泛化能力。 5. 位置感知前馈网络:在每个注意力子层之后,Transformer 模型还包含了位置感知前馈网络,它是一个两层的全连接前馈神经网络,用于对注意力表示进行非线性转换和映射。位置感知前馈网络在每个位置独立地进行计算,提高了模型的并行性和计算效率。 Transformer 模型主要由两大部分组成:编码器和解码器。每个部分都是由多个相同的层堆叠而成,每层包含了多头注意力机制和位置全连接前馈网络。 编码器可以理解为将自然语言转换成向量文本,以模型内的既有参数表示。这些参数包含了原始信息,同时也融合了序列内元素间的相互关系。例如,输入“我喜欢猫”,将自然语言转换成词嵌入向量:我>,经过自注意力机制,输出编码器输出一个序列的向量,表示对输入句子的理解。 解码器基于编码器的输出和之前生成的输出逐步生成目标序列,也就是把向量文本重新转化成自然语言。例如,目标生成中文句子“我喜欢猫”,初始输入为解码器接收一个开始符号,用,对应“猫”。这是一个简单的复现概念,当模型得到匹配度高的参数时,它就会一个词一个词地判断需要输出的语言文本。
2025-03-14
Transformer 架构
Transformer 架构主要由编码器(Encoder)和解码器(Decoder)两大部分组成。 编码器可以将自然语言转换成向量文本,其内部参数包含了原始信息以及序列内元素间的相互关系。例如,输入“我喜欢猫”,会将自然语言转换成词嵌入向量,如“我”对应,然后通过自注意力机制输出一个表示对输入句子理解的向量序列。 解码器基于编码器的输出和之前生成的输出逐步生成目标序列,将向量文本重新转化成自然语言。例如生成中文句子“我喜欢猫”,解码器接收开始符号,然后逐步根据编码器输出和已生成的词决定生成后续的词。 Transformer 是一种使用注意力机制的编码器解码器模型,其模型架构使得它可以利用多元化的优势,同时处理大量数据,有助于提高机器翻译等应用程序的性能。 此外,Transformer 架构能够并行处理大量数据吞吐,且满足 scaling law,在各个模态和技术栈具有优势,被 OpenAI 广泛使用。使用同样的架构可以复用模型的参数来引导不同技术栈的训练,以及使用一套 infra 框架训练不同的模型。
2025-03-14
transformer
Transformer 是一种深度学习模型,其核心思想是“Attention is all you need”,来源于 2017 年 Google Brain 团队发布的同名论文,主要用于处理序列数据,包括热门的 NLP 任务,完全基于注意力机制,不使用传统的 RNN 或 CNN 计算架构。 其工作流程如下: 1. 输入嵌入:将每个单词映射为一个向量,即单词嵌入。例如“ I ”映射为一个 512 维的向量。 2. 位置编码:由于 Transformer 没有捕获序列顺序的结构,需给每个词位置加上位置编码,使模型知道词语的相对位置。 3. 编码器:输入序列的嵌入向量和位置编码相加后被送入编码器层。编码器由多个相同的层组成,每层有两个核心部分,多头注意力机制捕捉单词间的依赖关系,前馈神经网络对 attention 的结果进行进一步编码。 4. 解码器:编码器的输出被送入解码器层。解码器也是由多个相同层组成,每层除了编码器组件外,还有一个额外的注意力模块,对编码器的输出序列建模依赖关系。 5. 输出嵌入:解码器最后一层的输出被映射为输出单词概率分布。例如生成单词“我”“是”等概率。 6. 生成:基于概率分布,以贪婪或 beam search 等解码策略生成完整的输出序列。 Transformer 模型用途广泛,可以用来翻译文本、写诗、写文章,甚至生成计算机代码。像 AlphaFold 2、GPT3、BERT、T5、Switch、Meena 等强大的自然语言处理(NLP)模型都建立在 Transformer 基础之上。如果想在机器学习,特别是自然语言处理方面与时俱进,至少要对 Transformer 有一定了解。
2025-03-13
Transformer是什么?
Transformer 是一种注意力模型,也被称为变形金刚模型。它源于 Google 团队在 2017 年发布的论文《Attention is All Your Needs》。 Transformer 是一种深度学习模型,核心思想是“Attention is all you need”。其主要用于处理序列数据,包括当下热门的自然语言处理(NLP)任务。与传统模型不同,Transformer 完全基于注意力机制,不依赖传统的循环神经网络(RNN)或卷积神经网络(CNN)的计算架构。 基于 Transformer 的模型众多,例如最流行的 BERT,它是“来自 Transformer 的双向编码器表示”的缩写。BERT 经过在庞大文本语料库上的训练,已成为自然语言处理的通用模型,可用于文本摘要、问答、分类、命名实体识别、文本相似度、攻击性信息/脏话检测、理解用户查询等一系列任务。 此外,Transformer 不仅在自然语言处理领域表现出色,还在自然语言处理之外的领域掀起浪潮,如作曲、根据文本描述生成图像以及预测蛋白质结构。像 ChatGPT 这样的模型在闲聊中也能展现出更多的世界知识和某种程度的推理能力,能够更好地理解人类语言的含义和上下文,并生成更自然流畅的语言表达。
2025-03-06
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
LSTM是什么?
长短期记忆(LSTM)是一种用于解决递归神经网络中梯度消失问题的方法,于 1997 年被提出。 LSTM 单元使用具有自连接的线性单元,其恒定权重为 1.0。这使得流入该自循环单元的值(前向传递)或梯度(后向传递)可以无限期地保留,以便在最需要的时间可以准确地检索该值或梯度。这种自我循环单元,即存储单元,提供了一种可以存储过去数十个时间步长的信息的存储器。这对于许多任务来说非常强大,例如对于文本数据,LSTM 单元可以存储前一段中包含的信息并将该信息应用于当前段落中的句子。 此外,深度网络中的一个常见问题是“梯度消失”问题,即梯度逐层变得越来越小,直至太小而无法影响最深层。借助 LSTM 中的存储单元,我们拥有连续的梯度流(误差保持其值),从而消除了梯度消失问题,并能够从数百个时间步长的序列中进行学习。 另一个门通过将存储单元的输出乘以 0(无输出)和 1(保留输出)之间的数字来操纵存储单元的输出。如果多个记忆相互竞争,这个门可能会很有用。 LSTM 单元的连接乍一看可能有点复杂,您需要一些时间来理解它。然而,如果将所有部分隔离开来,会发现该结构本质上与普通循环神经网络相同,其中输入和循环权重流向所有门,而这些门又反过来连接到自循环存储单元。 为了更深入地研究 LSTM 并理解整个架构,建议阅读。
2024-08-19