Chat with Wiki - 关于LLMs文本与图像混合模态训练

Answer

以下是关于 LLMs 文本与图像混合模态训练的相关内容：

多模态大模型总结：

InstructBLIP 基于预训练的 BLIP-2 模型进行训练，在 MM IT 期间仅更新 Q-Former。通过引入指令感知的视觉特征提取和相应的指令，能够提取灵活多样的特征。
PandaGPT 是一种开创性的通用模型，能够理解 6 种不同模式的指令并根据指令采取行动，包括文本、图像/视频、音频、热、深度和惯性测量单位。
PaLI-X 使用混合 VL 目标和单峰目标进行训练，包括前缀完成和屏蔽令牌完成。这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。
Video-LLaMA 引入了多分支跨模式 PT 框架，使 LLMs 能够在与人类对话的同时处理给定视频的视觉和音频内容，使视觉与语言以及音频与语言保持一致。
视频聊天 GPT 是专门为视频对话设计的模型，能够通过集成时空视觉表示来生成有关视频的讨论。
Shikra Chen 等人介绍了一种简单且统一的预训练 MM-LLM，专为参考对话（涉及图像中区域和对象的讨论的任务）而定制，展示了值得称赞的泛化能力，可以有效处理看不见的设置。
DLP 提出 P-Former 来预测理想提示，并在单模态句子数据集上进行训练，展示了单模态训练增强 MM 学习的可行性。

未来发展方向：最初，多模态融合方法常采用预训练的目标检测器，如 ViLBERT、VisualBERT 和 Unicoder-VL，通过提取图像特征和执行交叉模态预训练任务，为后续的图像-文本任务奠定基础。随着 ViT 的出现和普及，更多方法开始利用 ViT 作为图像编码器，强调大规模预训练，以提高模型的性能和泛化能力，例如 Flamingo。近期，向多模态 LLMs 的发展趋势是从进行预训练到向指令调整（instruction tuning）转变，例如 LLaVA 和 MiniGPT-4，它们通过融合视觉和语言信息，能够更有效地完成视觉理解相关的任务，进一步提升模型对于指令的理解能力，提升零样本性能，使模型能够更好地泛化到未见过的任务和领域。

训练过程：

预训练阶段：通常利用 X-Text 的数据集来训练输入、输出的 Projector，通过优化损失函数来实现不同模态的对齐，PEFT 有时候用于 LLM Backbone。X-Text 数据集包含图像-文本、视频-文本和音频-文本，其中图像-文本有两种类型：图像-文本对和交错图像-文本语料库。
多模态微调：是对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调，MM-LLM 可以遵循新的指令泛化到没有见过的任务，增强 zero-shot 的能力。MM IT 包括监督微调（SFT）和 RLHF 两部分，目的是为了使得模型符合人类的意图或者偏好，并且增强 MMLLMs 的交互能力。SFT 将 PT 阶段的数据转换为指令-aware 的格式，使用 QA 任务作为例子，可采用各种模板。优化目标和预训练相同，SFT 数据可以构造为单轮的 QA 或者多轮的 QA。常用的 SFT 和 RLHF 的数据集见表 4。

Content generated by AI large model, please carefully verify (powered by aily)

References

多模态大模型入门指南-长文慎入【持续更新】

(8)InstructBLIP基于预训练的BLIP-2模型进行训练，在MM IT期间仅更新Q-Former。通过引入指令感知的视觉特征提取和相应的指令，该模型使得能够提取灵活多样的特征。(9)PandaGPT是一种开创性的通用模型，能够理解6不同模式的指令并根据指令采取行动：文本、图像/视频、音频、热、深度和惯性测量单位。(10)PaLI-X使用混合VL目标和单峰目标进行训练，包括前缀完成和屏蔽令牌完成。事实证明，这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。(11)Video-LLaMA张引入了多分支跨模式PT框架，使LLMs能够在与人类对话的同时同时处理给定视频的视觉和音频内容。该框架使视觉与语言以及音频与语言保持一致。(12)视频聊天GPT Maaz等人。（2023）是专门为视频对话设计的模型，能够通过集成时空视觉表示来生成有关视频的讨论。(13)Shikra Chen等人。(2023d)介绍了一种简单且统一的预训练MM-LLM，专为参考对话（涉及图像中区域和对象的讨论的任务）而定制。该模型展示了值得称赞的泛化能力，可以有效处理看不见的设置。(14)DLP提出P-Former来预测理想提示，并在单模态句子数据集上进行训练。这展示了单模态训练增强MM学习的可行性。

质朴发言：视觉-语言理解模型的当前技术边界与未来应用想象｜Z 研究第 2 期

最初，多模态融合方法常采用预训练的目标检测器，例如ViLBERT、VisualBERT和Unicoder-VL。这些方法通过提取图像特征和执行交叉模态预训练任务，为后续的图像-文本任务奠定了基础。随着ViT的出现和普及，更多方法开始利用ViT作为图像编码器。这些方法强调大规模预训练，以提高模型的性能和泛化能力，例如Flamingo。近期，我们见证了向多模态LLMs的发展趋势，从进行预训练到向指令调整（instruction tuning）转变。例如LLaVA和MiniGPT-4，它们通过融合视觉和语言信息，能够更有效地完成视觉理解相关的任务。这进一步提升模型对于指令的理解能力，提升零样本性能，使模型能够更好地泛化到未见过的任务和领域，对于实现具有高度智能的通用人工智能，是一个重要的进步。

多模态大模型入门指南-长文慎入【持续更新】

在预训练阶段，通常利用X-Text的数据集，来训练输入，输出的Projector。通过优化损失函数来实现不同模态的对齐。PEFT有时候用于LLM Backbone。X-文本数据集包含图像-文本、视频-文本和音频-文本，其中图像-文本有两种类型：图像-文本对（即<img1><txt1>）和交错图像-文本语料库（即，txt1><img1><txt2><txt3><img2><txt4>）。这些X-Text数据集的详细统计数据如附录F的表3所示。[heading3]3.2多模态微调：[content]多模态微调是对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调，MM-LLM是可以遵循新的指令泛化到没有见过的任务，增强zero-shot的能力。这个简单而有影响力的概念促进了NLP领域后续努力的成功，例如，InstructGPT、OPT-IML、InstructBLIP。MM IT包括监督微调（SFT）和RLHF两部分，目的是为了使得模型符合人类的意图或者偏好，并且增强MMLLMs的交互能力。SFT将PT阶段的额数据转换为指令-aware的格式，使用QA任务作为例子。可以采用各种模板，例如：(1)<Image>{Question}A short answer to the question is;(2)<Image>Examine the image and respond to the following question with a brief answer:{Question}.Answer:优化目标和预训练是相同的，SFT数据可以构造为单论的QA或者多伦的QA。常用的SFT和RLHF的数据集见表4。