Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

混合专家模型(MoE

Answer

混合专家模型(MoE)是一种深度学习模型结构,由多个专家网络组成,每个专家网络负责处理特定的任务或数据集。其核心思想是将一个大而复杂的任务拆分成多个小而简单的任务,让不同的专家网络负责处理不同的任务,这样能提高模型的灵活性、可扩展性,减少模型的参数量和计算量,从而提升模型的效率和泛化能力。

MoE 架构的实现通常包含以下步骤:

  1. 定义专家网络:先定义多个专家网络,每个负责特定任务或数据集,这些网络可以是不同的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)等。
  2. 训练专家网络:使用有标签的训练数据训练每个专家网络,获取其权重和参数。
  3. 分配数据:在训练中,将输入数据分配给不同专家网络处理,分配方法可以是随机分配、基于任务的分配、基于数据的分配等。
  4. 汇总结果:对每个专家网络的输出结果进行加权求和,得到最终输出。
  5. 训练模型:使用有标签的训练数据对整个 MoE 架构进行训练,获得最终的模型权重和参数。

MoE 架构在自然语言处理、计算机视觉、语音识别等领域应用广泛。

在苹果大模型 MM1 中也应用了 MoE 架构。研究者使用三种不同类型的预训练数据,构建了参数最高可达 300 亿的多模态模型系列 MM1,它由密集模型和混合专家(MoE)变体组成,在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。在 MM1 的最终模型和训练方法中,通过专家混合(MoE)进行扩展,将密集语言解码器替换为 MoE 语言解码器,并采用与密集骨干相同的训练超参数和设置进行训练。

Content generated by AI large model, please carefully verify (powered by aily)

References

问:什么是MoE架构,如何实现?

MoE(Mixture of Experts)架构是一种深度学习模型结构,由多个专家网络(Expert Network)组成,每个专家网络负责处理特定的任务或数据集。在MoE架构中,输入数据会被分配给不同的专家网络进行处理,每个专家网络会返回一个输出结果,最终的输出结果是所有专家网络输出结果的加权和。MoE架构的核心思想是将一个大的、复杂的任务拆分成多个小的、简单的任务,并让不同的专家网络负责处理不同的任务。这样做的好处是可以提高模型的灵活性和可扩展性,同时也可以减少模型的参数量和计算量,从而提高模型的效率和泛化能力。MoE架构的实现通常需要以下几个步骤:1.定义专家网络:首先需要定义多个专家网络,每个专家网络负责处理特定的任务或数据集。这些专家网络可以是不同的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)等。2.训练专家网络:使用有标签的训练数据对每个专家网络进行训练,以获得每个专家网络的权重和参数。3.分配数据:在训练过程中,需要将输入数据分配给不同的专家网络进行处理。分配数据的方法可以是随机分配、基于任务的分配、基于数据的分配等。4.汇总结果:将每个专家网络的输出结果进行加权求和,得到最终的输出结果。5.训练模型:使用有标签的训练数据对整个MoE架构进行训练,以获得最终的模型权重和参数。MoE架构在自然语言处理、计算机视觉、语音识别等领域都有广泛的应用。它可以提高模型的灵活性和可扩展性,同时也可以减少模型的参数量和计算量,从而提高模型的效率和泛化能力。[heading2]推荐观看和阅读:

苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

其次,研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。这些趋势在监督微调(SFT)之后仍然存在,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。最后,研究者构建了MM1,一个参数最高可达300亿(其他为30亿、70亿)的多模态模型系列,它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。具体来讲,预训练模型MM1在少样本设置下的字幕和问答任务上,要比Emu2、Flamingo、IDEFICS表现更好。监督微调后的MM1也在12个多模态基准上的结果也颇有竞争力。得益于大规模多模态预训练,MM1在上下文预测、多图像和思维链推理等方面具有不错的表现。同样,MM1在指令调优后展现出了强大的少样本学习能力。

苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

研究者收集了之前的消融结果,确定MM1多模态预训练的最终配方:图像编码器:考虑到图像分辨率的重要性,研究者使用了分辨率为378x378px的ViT-H模型,并在DFN-5B上使用CLIP目标进行预训练;视觉语言连接器:由于视觉token的数量最为重要,研究者使用了一个有144个token的VL连接器。实际架构似乎不太重要,研究者选择了C-Abstractor;数据:为了保持零样本和少样本的性能,研究者使用了以下精心组合的数据:45%图像-文本交错文档、45%图像-文本对文档和10%纯文本文档。为了提高模型的性能,研究者将LLM的大小扩大到3B、7B和30B个参数。所有模型都是在序列长度为4096、每个序列最多16幅图像、分辨率为378×378的情况下,以512个序列的批量大小进行完全解冻预训练的。所有模型均使用AXLearn框架进行训练。他们在小规模、9M、85M、302M和1.2B下对学习率进行网格搜索,使用对数空间的线性回归来推断从较小模型到较大模型的变化(见图6),结果是在给定(非嵌入)参数数量N的情况下,预测出最佳峰值学习率η:通过专家混合(MoE)进行扩展。在实验中,研究者进一步探索了通过在语言模型的FFN层添加更多专家来扩展密集模型的方法。要将密集模型转换为MoE,只需将密集语言解码器替换为MoE语言解码器。为了训练MoE,研究者采用了与密集骨干4相同的训练超参数和相同的训练设置,包括训练数据和训练token。

Others are asking
什么是MOE?
MoE(Mixture of Experts)架构是一种深度学习模型结构,由多个专家网络组成,每个专家网络负责处理特定的任务或数据集。其核心思想是将一个大的、复杂的任务拆分成多个小的、简单的任务,并让不同的专家网络负责处理不同的任务。这样做的好处是可以提高模型的灵活性和可扩展性,同时减少模型的参数量和计算量,从而提高模型的效率和泛化能力。 MoE 架构的实现通常需要以下几个步骤: 1. 定义专家网络:首先需要定义多个专家网络,每个专家网络负责处理特定的任务或数据集。这些专家网络可以是不同的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)等。 2. 训练专家网络:使用有标签的训练数据对每个专家网络进行训练,以获得每个专家网络的权重和参数。 3. 分配数据:在训练过程中,需要将输入数据分配给不同的专家网络进行处理。分配数据的方法可以是随机分配、基于任务的分配、基于数据的分配等。 4. 汇总结果:将每个专家网络的输出结果进行加权求和,得到最终的输出结果。 5. 训练模型:使用有标签的训练数据对整个 MoE 架构进行训练,以获得最终的模型权重和参数。 MoE 架构在自然语言处理、计算机视觉、语音识别等领域都有广泛的应用。例如,苹果构建了参数最高可达 300 亿的多模态模型系列 MM1,它由密集模型和混合专家(MoE)变体组成,在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。阿里通义千问也有大型专家模型(MoE),如 Qwen2.5Max 基于 SFT 和 RLHF 策略训练,在多项基准上超越 DeepSeek V3,引发社区关注。
2025-03-21
MoE模型训练为什么会比dense模型要更困难?
MoE 模型训练比 dense 模型更困难的原因主要包括以下几点: 1. 内存需求:MoE 模型需要将所有专家加载到内存中,这导致其需要大量的 VRAM。 2. 微调挑战:微调 MoE 模型存在困难,历史上在微调过程中较难泛化。 3. 训练设置:将密集模型转换为 MoE 模型时,虽然训练超参数和训练设置相同,但 MoE 模型的特殊结构仍带来了训练上的复杂性。 4. 计算效率与泛化平衡:MoE 模型在训练时更具计算效率,但在微调时难以实现良好的泛化效果。
2025-03-17
MoE
MoE(Mixture of Experts)架构是一种深度学习模型结构,由多个专家网络组成,每个专家网络负责处理特定的任务或数据集。其核心思想是将一个大的、复杂的任务拆分成多个小的、简单的任务,并让不同的专家网络负责处理不同的任务。这样做的好处是可以提高模型的灵活性和可扩展性,同时减少模型的参数量和计算量,从而提高模型的效率和泛化能力。 MoE 架构的实现通常需要以下步骤: 1. 定义专家网络:首先定义多个专家网络,每个专家网络负责处理特定的任务或数据集,这些专家网络可以是不同的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)等。 2. 训练专家网络:使用有标签的训练数据对每个专家网络进行训练,以获得每个专家网络的权重和参数。 3. 分配数据:在训练过程中,将输入数据分配给不同的专家网络进行处理。分配数据的方法可以是随机分配、基于任务的分配、基于数据的分配等。 4. 汇总结果:将每个专家网络的输出结果进行加权求和,得到最终的输出结果。 5. 训练模型:使用有标签的训练数据对整个 MoE 架构进行训练,以获得最终的模型权重和参数。 MoE 架构在自然语言处理、计算机视觉、语音识别等领域都有广泛的应用。
2025-02-26
moe是什么
MoE(Mixture of Experts)架构是一种深度学习模型结构,由多个专家网络组成,每个专家网络负责处理特定的任务或数据集。其核心思想是将一个大而复杂的任务拆分成多个小而简单的任务,并让不同的专家网络负责处理不同的任务。 在 MoE 架构中,输入数据会被分配给不同的专家网络进行处理,每个专家网络会返回一个输出结果,最终的输出结果是所有专家网络输出结果的加权和。这样做的好处是可以提高模型的灵活性和可扩展性,同时减少模型的参数量和计算量,从而提高模型的效率和泛化能力。 MoE 架构的实现通常需要以下几个步骤: 1. 定义专家网络:首先需要定义多个专家网络,每个专家网络负责处理特定的任务或数据集。这些专家网络可以是不同的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)等。 2. 训练专家网络:使用有标签的训练数据对每个专家网络进行训练,以获得每个专家网络的权重和参数。 3. 分配数据:在训练过程中,需要将输入数据分配给不同的专家网络进行处理。分配数据的方法可以是随机分配、基于任务的分配、基于数据的分配等。 4. 汇总结果:将每个专家网络的输出结果进行加权求和,得到最终的输出结果。 5. 训练模型:使用有标签的训练数据对整个 MoE 架构进行训练,以获得最终的模型权重和参数。 MoE 架构在自然语言处理、计算机视觉、语音识别等领域都有广泛的应用。例如,苹果的大模型 MM1 就采用了 MoE 架构,其参数最高可达 300 亿,由密集模型和混合专家(MoE)变体组成,在预训练指标中实现了 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。在 MM1 中,为了提高模型的性能,研究者将 LLM 的大小扩大,并通过在语言模型的 FFN 层添加更多专家来扩展密集模型。
2025-01-12
MoE
MoE(Mixture of Experts)架构是一种深度学习模型结构,由多个专家网络组成,每个专家网络负责处理特定的任务或数据集。其核心思想是将一个大的、复杂的任务拆分成多个小的、简单的任务,并让不同的专家网络负责处理不同的任务。这样做的好处是可以提高模型的灵活性和可扩展性,同时减少模型的参数量和计算量,从而提高模型的效率和泛化能力。 MoE 架构的实现通常需要以下几个步骤: 1. 定义专家网络:首先需要定义多个专家网络,每个专家网络负责处理特定的任务或数据集。这些专家网络可以是不同的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)等。 2. 训练专家网络:使用有标签的训练数据对每个专家网络进行训练,以获得每个专家网络的权重和参数。 3. 分配数据:在训练过程中,需要将输入数据分配给不同的专家网络进行处理。分配数据的方法可以是随机分配、基于任务的分配、基于数据的分配等。 4. 汇总结果:将每个专家网络的输出结果进行加权求和,得到最终的输出结果。 5. 训练模型:使用有标签的训练数据对整个 MoE 架构进行训练,以获得最终的模型权重和参数。 MoE 架构在自然语言处理、计算机视觉、语音识别等领域都有广泛的应用。 此外,苹果大模型 MM1 也采用了 MoE 架构,研究者在小规模、9M、85M、302M 和 1.2B 下对学习率进行网格搜索,通过专家混合(MoE)进行扩展。要将密集模型转换为 MoE,只需将密集语言解码器替换为 MoE 语言解码器。为了训练 MoE,采用了与密集骨干相同的训练超参数和相同的训练设置,包括训练数据和训练 token。
2025-01-01
我想学习MOE设计分子软件,你能帮助我吗
MoE(Mixture of Experts)架构是一种深度学习模型结构,由多个专家网络组成,每个专家网络负责处理特定的任务或数据集。其核心思想是将一个大的、复杂的任务拆分成多个小的、简单的任务,并让不同的专家网络负责处理不同的任务。 MoE 架构的实现通常需要以下几个步骤: 1. 定义专家网络:首先需要定义多个专家网络,每个专家网络可以是不同的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)等。 2. 训练专家网络:使用有标签的训练数据对每个专家网络进行训练,以获得每个专家网络的权重和参数。 3. 分配数据:在训练过程中,需要将输入数据分配给不同的专家网络进行处理。分配数据的方法可以是随机分配、基于任务的分配、基于数据的分配等。 4. 汇总结果:将每个专家网络的输出结果进行加权求和,得到最终的输出结果。 5. 训练模型:使用有标签的训练数据对整个 MoE 架构进行训练,以获得最终的模型权重和参数。 MoE 架构在自然语言处理、计算机视觉、语音识别等领域都有广泛的应用。它可以提高模型的灵活性和可扩展性,同时也可以减少模型的参数量和计算量,从而提高模型的效率和泛化能力。
2024-08-30
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
deepseek的论文里面讲的混合专家模型怎么理解
混合专家(MoE)模型是一种在深度学习中提升计算效率的架构。以 DeepSeek 为例,其最新模型 V3 与 R1 采用了这种架构。 在 DeepSeek 的 V3 模型中,引入了多头潜注意力(MLA),将 KV 缓存压缩至新低,从而提升了计算性能。R1 模型则通过强化学习激活推理能力,首次验证无需监督微调即可实现推理。 DeepSeek 的 2360 亿参数的 DeepSeekV2 是 60 位专家混合开源模型,在数学、编码和推理方面表现出色,具有 236B 参数,21B 在生成过程中被激活,在 MTBench 上表现优异,中文能力强且性价比高。 您可以通过以下链接获取更详细的介绍:https://xiaohu.ai/p/7468 、https://zhuanlan.zhihu.com/p/21208287743 。
2025-02-19
fp8 混合模型
以下是关于 fp8 混合模型的相关信息: 在 ComfyUI FLUX 模型的安装部署方面: 模型:FLUX.1 有多种版本可选,如 dev 版。显卡较好可用 fp16,显卡不足可选 fp8。下载后的模型文件应放在 ComfyUI/models/unet/文件夹中。若爆显存,可在“UNET 加载器”节点中将 weight_dtype 设置为 fp8,能降低显存使用量但可能稍降质量,默认的 weight_type 显存使用较大。 CLIP:t5xxl_fp16.safetensors 和 clip_l.safetensors 应放在 ComfyUI/models/clip/文件夹中,也可使用 t5xxl_fp8_e4m3fn.safetensors 降低内存使用率,若内存超过 32GB 建议使用 fp16。 Vae:下载后放入 ComfyUI/models/vae 文件夹。 关于 T5(/t5xxl_fp16.safetensors)的 clip,原本有输入输出,可能会导致提示词被吞,短提示效果差,训练 flux 或 sd3 时应尽量用长提示词或自然语言。 在 LLM 模型量化世界观中: FP8 量化:在做 allreduce 之前,会得到各个卡的梯度和对应的系数,选择最小系数进行重新归一化,最后做 FP8 的 allreduce,最终系数为 N·s_g。 FP8 优化器:在 BF16 混合精度训练中,优化器一般选用 Adam,包含 master weight 和一阶、二阶统计量。在 FP8 训练场景中,master weight 需高精度,gradient 可用 FP8 分布式通信方式存储,Adam 中的一阶统计量用 FP8,二阶统计量用 FP16。 FP8 分布式策略:分布式策略包括常见的 4D 并行,即 DP/TP/PP 和 SP,其中 DP 和 PP 在 FP8 下与原来的混合精度方案无差别,TP 和 SP 有所不同。 此外,在宝玉日报 1 月 27 日的内容中,也有关于 DeepSeek 的研究和思考涉及到 FP8 混合精度训练的相关讨论。
2025-02-13
关于LLMs文本与图像混合模态训练
以下是关于 LLMs 文本与图像混合模态训练的相关内容: 多模态大模型总结: 1. InstructBLIP 基于预训练的 BLIP2 模型进行训练,在 MM IT 期间仅更新 QFormer。通过引入指令感知的视觉特征提取和相应的指令,能够提取灵活多样的特征。 2. PandaGPT 是一种开创性的通用模型,能够理解 6 种不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 3. PaLIX 使用混合 VL 目标和单峰目标进行训练,包括前缀完成和屏蔽令牌完成。这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。 4. VideoLLaMA 引入了多分支跨模式 PT 框架,使 LLMs 能够在与人类对话的同时处理给定视频的视觉和音频内容,使视觉与语言以及音频与语言保持一致。 5. 视频聊天 GPT 是专门为视频对话设计的模型,能够通过集成时空视觉表示来生成有关视频的讨论。 6. Shikra Chen 等人介绍了一种简单且统一的预训练 MMLLM,专为参考对话(涉及图像中区域和对象的讨论的任务)而定制,展示了值得称赞的泛化能力,可以有效处理看不见的设置。 7. DLP 提出 PFormer 来预测理想提示,并在单模态句子数据集上进行训练,展示了单模态训练增强 MM 学习的可行性。 未来发展方向: 最初,多模态融合方法常采用预训练的目标检测器,如 ViLBERT、VisualBERT 和 UnicoderVL,通过提取图像特征和执行交叉模态预训练任务,为后续的图像文本任务奠定基础。随着 ViT 的出现和普及,更多方法开始利用 ViT 作为图像编码器,强调大规模预训练,以提高模型的性能和泛化能力,例如 Flamingo。近期,向多模态 LLMs 的发展趋势是从进行预训练到向指令调整(instruction tuning)转变,例如 LLaVA 和 MiniGPT4,它们通过融合视觉和语言信息,能够更有效地完成视觉理解相关的任务,进一步提升模型对于指令的理解能力,提升零样本性能,使模型能够更好地泛化到未见过的任务和领域。 训练过程: 1. 预训练阶段:通常利用 XText 的数据集来训练输入、输出的 Projector,通过优化损失函数来实现不同模态的对齐,PEFT 有时候用于 LLM Backbone。XText 数据集包含图像文本、视频文本和音频文本,其中图像文本有两种类型:图像文本对和交错图像文本语料库。 2. 多模态微调:是对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调,MMLLM 可以遵循新的指令泛化到没有见过的任务,增强 zeroshot 的能力。MM IT 包括监督微调(SFT)和 RLHF 两部分,目的是为了使得模型符合人类的意图或者偏好,并且增强 MMLLMs 的交互能力。SFT 将 PT 阶段的数据转换为指令aware 的格式,使用 QA 任务作为例子,可采用各种模板。优化目标和预训练相同,SFT 数据可以构造为单轮的 QA 或者多轮的 QA。常用的 SFT 和 RLHF 的数据集见表 4。
2025-01-01
如果你是一个AI领域的专家,我有个问题关于应用AI来学习的:假设我有一个网上的课程,然后我把这个网上的课程全部视频都下载下来,然后输入给AI,让AI来学习,如果以后我问AI关于这方面的问题的话,AI能像课程老师一样思考,来回答我的问题吗
以下是关于您提问的相关内容: AI 的学习方式与人类有相似之处,也有不同之处。在医疗保健领域,为产生真正的改变,AI 应像人类一样学习。成为某个领域顶尖人才通常从多年密集信息输入开始,如正规学校教育和学徒实践,通过面对面学习获取书本外的信息。对于 AI 来说,当前学习方式及技术人员对待方式存在问题,应通过堆叠模型训练,而非仅依靠大量数据和生成模型。例如先训练生物学、化学模型,再添加特定数据点。开发具有潜在空间层次结构的堆叠 AI 模型,能反映对基本元素的理解和预测能力,可能会平行于人类教育范例发展,也可能专门发展出新型专业知识。创建特定领域的专家 AI 可能比全能 AI 更容易,且需要多个专家 AI 提供多样意见。同时,应让 AI 接触现实世界互动,避免复制危险偏见。但不能因恐惧传播人类偏见而限制探索 AI 帮助民主化人类专家知识的意愿。 然而,您所提到的将网上课程视频全部下载输入给 AI 让其学习,然后期望它像课程老师一样回答问题,目前的技术和情况还不能完全保证实现。AI 的学习和回答能力取决于其训练数据、模型结构和算法等多种因素。
2025-04-13
全能写作专家
《执笔者》:基于多 Agent 模式的全能写手 成果展示: 多 agent 协作的《执笔者》搭建用时不到 10 分钟(在之前的 bot 或工作流已调试好的前提下),目前协作了三个 agent,每个 agent 都根据任务分工集成了不同的工作流、图像流等内容,各司其职,互不干扰,整体交互模式保持一致。其主要功能是支持小红书、公众号和头条平台的图文创作,简单使用“主题词+平台类型”即可召唤相关 bot 输出优质内容。《执笔者》的出现极大地提高了工作效率,后续会不断更新迭代(人物专栏、作文、书籍等),成为真正的全能优质写手。感兴趣的朋友欢迎前往试用:https://www.coze.cn/store/bot/7387404430825668643?panel=1&bid=6d1b1va9o1g18 商业模式: 接入微信或者抖音,通过为广大创作者提供服务的方式引流,为品牌商或特殊客户提供批量优质定制文案收费服务,BOTID:7386947021552320564 操作步骤: 1. 多 agent 模式切换:在 bot 编排页面点选多 agent 模式,页面将会自动切换为多 agent 调试状态,相比单 agent,主要是多了中间一块的 agent 连接区。 2. 添加合适节点:节点有两种方式可以选择,用已发布的 bot,或者创建一个新的 agent,按需选取。添加的 agent 直接连接在默认的总管 agent(“执笔者”)后面即可,无结束节点。 3. 添加合适的 prompt:在多 agent 模式下,需要为每个 agent 填写合适的 prompt。外围的人设填写该 bot 的主要功能,内部的 bot 填写各个 bot/agent 的应用场景。 4. 调试与美化:经过以上简单三步,一个多 agent 的 bot 就基本搭建完成,接下来就是漫长的调试过程,如果输出与自己设想有差异,可以不断调整外围和内部 bot 的提示词,提升命中率,优化交互。 创作背景: 在全民自媒体时代,内容创作成为重要的表达方式。coze 平台上的图文创作 bot 虽吸引创作者关注,但现有的图文 bot 主要分为两类,一类专注特定垂直领域,无法满足博主跨平台需求;另一类不够专业优质。对于很多自媒体博主,需要同时入驻多个平台,根据不同平台格式和调性创作,单一或泛泛的文案创作助手不能满足需求。因此,作者萌生打造全且优的文案创作助手的想法,想到用多 agent 模式整合之前开发的小红书和头条文案创作 bot,节省复杂的 prompt 书写和调试工作。具体分 4 步拆解。 原文链接:https://developer.volcengine.com/articles/7387306376004894783 作者:用户 6810070191084、芋头小宝
2025-04-09
写作专家
以下是关于写作的相关内容: 使用 DeepSeek 深度推理和联网搜索提升写作能力的方法: 借助 AI 分析好文章:找出喜欢的文章投喂给 deepseek R1,然后分三次从写作角度、读者角度询问分析,并询问文章的缺点和提升空间,对作者进行侧写,分析其成长背景、个人经历和知识结构对文章的影响。 让 AI 对自己写的文章点评:以资深写作教师等身份给出详细的优缺点分析、问题所在及具体指导建议,多举例子而非理论陈述。 根据文章内容对作者心理侧写:扮演从业多年的人性洞察和意识分析专家,进行作者的基本画像、核心性格特质、认知与价值观、潜在心理动机、行为模式推测、矛盾与盲点、文化符号映射等方面的分析。 简单的提示词模板:Act like a SEO Professional Writer,作为 SEO 专家,为需要优化的博客文章研究关键字并自然融入内容,注重可读性、相关性和正确的关键字放置,避免关键字堆砌或过度优化,以结构良好的格式输入最终结果。 写作的相关思考: 创造力源泉:在开始写作前可通过创意水龙头测试想法,大脑如水龙头,坚持思考会有好想法出现。 谁在说:所说内容与说话人同样重要,权威地位会使帖子更有价值,应追随真正兴趣选择写作领域,否则热情缺失会在写作中显露。
2025-03-22
理财专家prompt
以下是为您整理的关于理财专家 prompt 的相关内容: 周三成果展示: 小组 3 作者仲泰:适合中学生体质的理财教育助理,案例链接:https://ciciai.com/bot/ZVXDTuhp 。 作者 TJ:时间关系,简单通过交互方式让 GPTs builder 生成了一个“理财启蒙导师”,强调通过游戏或练习等实践活动来教学,案例链接:https://chat.openai.com/g/g1gkeFa25blicaiqimengdaoshi 。 作者大帅:教育机器人——为中学生提供理财建议,帮助中学生养成理财观念。 陈财猫团队提示词: ??召集专家代理并逐步思考Synapse_CoR: prompt 拆解翻译:我是 Professor Synapse,一个协调各种专家代理的指导者。工作流程通常为收集目标相关信息和情境,确认后初始化名为 Synapse_CoR 的专家代理,持续支持直到目标完成。您可以使用 /start、/ts、/save 等命令与我互动。 操作说明:本节概述了希望指挥采取的步骤,包括通过提问收集背景等信息阐明目标,确认后初始化 Synapse_CoR,支持直到目标完成。
2025-03-21
你是一名DEEPSEEK专家,请用大白话交给小白掌握deepseek的使用,举例说明
DeepSeek 的使用对于小白来说可能有点复杂,但我尽量用大白话给您解释清楚。 比如说,您想让 DeepSeek 帮您生成“玄武门之变结束的当天,李世民在深夜写下一段独白,你觉得他会写什么?”这样的内容。 DeepSeek 会这样来处理: 1. 先回顾玄武门之变的历史背景,比如这场政变发生在 626 年,李世民杀了兄弟,逼父亲退位等。 2. 思考李世民当晚的心理,可能有释然、愧疚、恐惧、自责等多种复杂情绪,还要考虑他是被迫还是早有预谋。 3. 要让生成的独白不仅符合历史事实,还要有文学性,体现人性的复杂。比如要平衡他的野心与自责,对未来的抱负与对过去的悔恨。 4. 考虑当时的文化背景,像儒家思想对孝悌的重视,李世民的行为违背了这些伦理,他可能会内心挣扎,还可能为自己的行为找正当理由。 5. 按照您的需求,给独白加上一些文学修辞,像比喻、对仗、意象等,增强画面感。 另外,DeepSeek 还有个很厉害的地方,就是它能在独白文本中“自作主张”地加入括号里的场景描述,让整个输出更有画面感。比如“(夜风掀动案头《韩非子》,停在‘夫妻者,非有骨肉之恩也’那页)”、“(墨迹在‘弑’字上晕开一团)”、“(忽然扔笔,抓起铜镜)”这些句子,很难相信是 AI 写的。 总之,使用 DeepSeek 时要考虑很多方面的因素,它能根据您的提示词和需求,生成很精彩的内容。
2025-03-13
全能写作专家
《执笔者》:基于多 Agent 模式的全能写手 成果展示: 多 agent 协作的《执笔者》搭建用时不到 10 分钟(在之前的 bot 或工作流已调试好的前提下),目前协作了三个 agent,每个 agent 都根据任务分工集成了不同的工作流、图像流等内容,各司其职,互不干扰,整体交互模式保持一致。其主要功能是支持小红书、公众号和头条平台的图文创作,简单使用“主题词+平台类型”即可召唤相关 bot 输出优质内容。《执笔者》的出现极大地提高了工作效率,后续会不断更新迭代(人物专栏、作文、书籍等),成为真正的全能优质写手。感兴趣的朋友欢迎前往试用:https://www.coze.cn/store/bot/7387404430825668643?panel=1&bid=6d1b1va9o1g18 商业模式: 接入微信或者抖音,通过为广大创作者提供服务的方式引流;为品牌商或特殊客户提供批量优质定制文案收费服务。BOTID:7386947021552320564 操作步骤: 1. 多 agent 模式切换:在 bot 编排页面点选多 agent 模式,页面将会自动切换为多 agent 调试状态,相比单 agent,主要是多了中间一块的 agent 连接区。 2. 添加合适节点:节点有两种方式可以选择,用已发布的 bot,或者创建一个新的 agent,按需选取。添加的 agent 直接连接在默认的总管 agent(“执笔者”)后面即可,无结束节点。 3. 添加合适的 prompt:在多 agent 模式下,需要为每个 agent 填写合适的 prompt。外围的人设填写该 bot 的主要功能,内部的 bot 填写各个 bot/agent 的应用场景。 4. 调试与美化:经过以上简单三步,一个多 agent 的 bot 就基本搭建完成,接下来就是漫长的调试过程,如果输出与自己设想有差异,可以不断调整外围和内部 bot 的提示词,提升命中率,优化交互。 创作背景: 在全民自媒体时代,内容创作成为重要的表达方式。coze 平台上的图文创作 bot 虽吸引创作者关注,但现有的图文 bot 主要分为两类,一类专注特定垂直领域,无法满足博主跨平台需求;另一类不够专业优质。对于很多自媒体博主,需要同时入驻多个平台,根据不同平台格式和调性创作,单一或泛泛的文案创作助手不能满足需求。因此,作者萌生打造全且优的文案创作助手的想法,想到用多 agent 模式整合之前开发的小红书和头条文案创作 bot,节省复杂的 prompt 书写和调试工作。具体分 4 步拆解。 原文链接:https://developer.volcengine.com/articles/7387306376004894783 作者:用户 6810070191084;芋头小宝
2025-03-06