《大模型工具学习》报告由清华大学自然语言处理实验室(THUNLP)的秦禹嘉撰写,探讨了人工智能(AI)在工具使用方面的能力。报告指出,基础模型通过强大的语义理解、广泛的世界知识和推理规划能力,能够像人类一样使用工具。工具学习分为工具增强学习和面向工具的学习两种类型。报告介绍了工具学习的框架,包括环境、感知者、工具集和控制器等组件,以及意图理解、工具理解、规划与推理等关键技术。
此外,LLM 中 Token 被视为模型处理和生成的文本单位,在将输入进行分词时,会对其进行数字化,形成一个词汇表,同时把 Token 表示成稠密矩阵向量,这个过程称之为 embedding,常见的算法有基于统计、基于深度网络、基于神经网络等。以 Transform 为代表的大模型采用自注意力(Self-attention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。
《[清华大学:大模型工具学习](https://waytoagi.feishu.cn/record/KUPCryG2AeNJIHc8qZec26yOnpg)》报告由清华大学自然语言处理实验室(THUNLP)的秦禹嘉撰写,探讨了人工智能(AI)在工具使用方面的能力。报告指出,基础模型通过强大的语义理解、广泛的世界知识和推理规划能力,能够像人类一样使用工具。工具学习分为工具增强学习和面向工具的学习两种类型。报告介绍了工具学习的框架,包括环境、感知者、工具集和控制器等组件,以及意图理解、工具理解、规划与推理等关键技术。《[知名投资人谈硅谷AI创业的发展与未来:YC总裁Garry Tan,Elad Gil&Sarah Guo](https://mp.weixin.qq.com/s/wTQa6EmsJTyxZHVwlMcSjw)》这篇文章是关于硅谷知名投资人Garry Tan、Elad Gil和Sarah Guo在一次线上圆桌讨论中谈论了硅谷AI创业的发展与未来。讨论内容包括他们对YC的发展、硅谷现状和AI创业前景的看法。他们提到了AI在初创公司中的应用和影响,以及YC在推动科技行业进步方面的作用。同时,还分享了个人创业经历和投资理念。文章探讨了AI在创新中的应用、初创公司面对科技巨头的生存挑战,以及YC的未来发展方向。
《[腾讯云&Gartner:2024生成式AI产业落地路径研究报告](https://waytoagi.feishu.cn/record/BD9QrltJ9eiyvecwWn0cvle9nbf)》《[清华大学:大模型工具学习](https://waytoagi.feishu.cn/record/KUPCryG2AeNJIHc8qZec26yOnpg)》报告由清华大学自然语言处理实验室(THUNLP)的秦禹嘉撰写,探讨了人工智能(AI)在工具使用方面的能力。报告指出,基础模型通过强大的语义理解、广泛的世界知识和推理规划能力,能够像人类一样使用工具。工具学习分为工具增强学习和面向工具的学习两种类型。报告介绍了工具学习的框架,包括环境、感知者、工具集和控制器等组件,以及意图理解、工具理解、规划与推理等关键技术。
在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID|<br>|-|-|<br>|The|345|<br>|cat|1256|<br>|sat|1726|<br>|…|…|数字化的好处是便于计算机处理。但为了让计算机理解Token之间的联系,还需要把Token表示成稠密矩阵向量,这个过程称之为embedding([3]),常见的算法有:基于统计Word2Vec,通过上下文统计信息学习词向量GloVe,基于词共现统计信息学习词向量基于深度网络CNN,使用卷积网络获得图像或文本向量RNN/LSTM,利用序列模型获得文本向量基于神经网络BERT,基于Transformer和掩码语言建模(Masked LM)进行词向量预训练Doc2Vec,使用神经网络获得文本序列的向量以Transform为代表的大模型采用自注意力(Self-attention)机制来学习不同token之间的依赖关系,生成高质量embedding。