Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么是基座模型

Answer

基座模型是在自然语言处理领域中具有重要地位的模型。

例如,GLM(General Language Model)是清华提出的基座模型,属于Prefix LM方式。其出发点是希望能同时在3种NLP任务上达到最优,同时不想引入原始encoder-decoder成倍的计算量代价。具体做法是先用双向网络encoder对题干(prompt)审题,然后通过decoder-only的方式把题干中[M]位置做展开作答。

此外,还有一些开源的基座模型,如:

  1. CPM-Bee:一个完全开源、允许商用的百亿参数中英文基座模型。采用Transformer自回归架构,在超万亿高质量语料上进行预训练,拥有强大的基础能力。
  2. TigerBot:一个多语言多任务的大规模语言模型,开源了包括模型:TigerBot-7B、TigerBot-7B-base、TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。
  3. 书生·浦语:由商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布的千亿级参数大语言模型,具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。

在一些应用中,如Kolors,会选择直接使用大语言模型如ChatGLM-6B-Base作为文本编码的基座模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

(2)初探LLM基座模型

GLM(General Language Model)是清华提出的基座模型,属于Prefix LM方式。作者说出发点是希望能同时在3种NLP任务上达到最优也不想引入原始encoder-decoder成倍的计算量代价换个角度理解,我认为该论文出发点是改进BERT,想解决BERT的两个短板短板1:对连续的Mask Token处理的不好→干脆把连续的Mask Tokens合并成一个token$$[M]$$token短板2:没法直接用于做变长的文字生成的任务→对$$[M]$$位置进行任意长度的展开于是得到解体思路为,先用双向网络encoder对题干(prompt)审题,然后通过decoder-only的方式把题干中$$[M]$$位置做展开作答。最终的网络形式很像权值共享版本的encoder-decoder,这样计算量也降下来了。具体做法如下所示,关键是构造seq A和seq B

LLM开源中文大语言模型及数据集集合

CPM-Bee地址:[https://github.com/OpenBMB/CPM-Bee](https://github.com/OpenBMB/CPM-Bee)简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。TigerBot地址:[https://github.com/TigerResearch/TigerBot](https://github.com/TigerResearch/TigerBot)简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B,TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。书生·浦语地址:[https://github.com/InternLM/InternLM-techreport](https://github.com/InternLM/InternLM-techreport)简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。

模型能力简介

Kolors针对这一问题,选择直接使用大语言模型进行文本编码。具体来说,Kolors使用了ChatGLM-6B-Base模型,这是一个中英双语的大语言基座模型。这里没有选择其SFT版本ChatGLM-6B是因为作者认为未经对齐人类偏好的基座模型反而更适合文本特征的提取。在最大编码长度方面,ChatGLM也更高,达到了256。与SDXL一样,Kolors取文本编码器的倒数第二层特征作为文本条件。下表对比了主流开源文生图模型所选用的文本编码器和支持的语言。

Others are asking
本地编程辅助大模型,推荐用哪些插件和基座模型
以下是为您推荐的一些用于本地编程辅助的插件和基座模型: 1. 插件: OpenRouter:新发布的 BYOK 功能,可集成 xAI、OpenAI、Mistral 等数十个平台的 Key,能同时使用其他平台和 OpenRouter 的免费额度。目前支持白“赚”的平台包括 AI Studio、Cohere、DeepSeek、Mistral、SambaNova、Together、xAI 等。 simpleoneapi:若对国产大模型支持有需求,熟悉代码的可通过本地或 Docker 启动。 2. 基座模型: 推理模型:o1、gemini2.0flashthinking 代码模型:claude3.5sonet(性能强)、gpt4omini(价格友好) 多模态模型:gemini2.0flash 常规模型:DeepSeek V3 开源中文大语言模型: FengshenbangLM:基于 LLaMa 的 130 亿参数的大规模预训练模型,具备多种能力,如翻译、编程、文本分类等。地址: BiLLa:推理能力增强的中英双语 LLaMA 模型,提升了中文理解能力。地址: Moss:支持中英双语和多种插件的开源对话语言模型。地址: 此外,对于 SDXL 的本地部署,大模型分为 base+refiner 和配套的 VAE 模型两部分。base 是基础模型用于文生图操作,refiner 用于细化生成的模型以获得更丰富的细节,VAE 用于调节图片效果和色彩。要在 webUI 中使用,需将 webUI 版本升级到 1.5 以上,并将模型放入对应文件夹。
2025-03-20
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14