以下是为您提供的大模型知识图谱:
1. 非技术背景,一文读懂大模型
整体架构
基础层:为大模型提供硬件支撑,数据支持等,例如 A100、数据服务器等。
数据层:企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。
模型层:LLm 或多模态模型,LLm 即大语言模型,如 GPT,一般使用 transformer 算法实现;多模态模型包括文生图、图生图等,训练所用数据与 llm 不同,用的是图文或声音等多模态的数据集。
平台层:模型与应用间的平台部分,如大模型的评测体系,或者 langchain 平台等。
表现层:也就是应用层,用户实际看到的地方。
2. AI Agent 系列:Brain 模块探究
知识
内置知识
常识知识:包括日常生活中广泛认可的事实和逻辑规则,帮助智能体具备泛化能力。
专业知识:涉及深入特定领域的详细信息,如医学、法律、科技、艺术等领域的专有概念和操作方法。
语言知识:包括语法规则、句型结构、语境含义以及文化背景等,还涉及非文字部分如语调、停顿和强调等。
3. 大模型入门指南
通俗定义:输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。
类比学习过程
找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。
确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。
找老师:用算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。
就业指导:为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。
搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。
Token:被视为模型处理和生成的文本单位,可代表单个字符、单词、子单词等,在将输入进行分词时,会对其进行数字化,形成词汇表。
2025-04-07