以下是关于大模型训练师的相关信息:
招聘信息:
中国移动设计院正在招聘大模型开发工程师,办公地点在北京海淀中关村。
数量:1 名
学历:本科及以上
资历:5 年及以上
岗位要求:
参与大模型技术研究、大模型微调、大模型智能体研发、基于大模型的应用研发等工作。
大模型相关的数据工程,包括预训练数据、微调数据、行业数据挖掘等。
大模型相关的落地实现:如推理优化、部署、AIAgent、工具学习、领域大模型等。
技能要求:
了解大模型基本原理,包括不限于模型架构、模型预训练及微调、模型部署及推理。
熟悉 LLM 相关技术,如 transformer,prompt tuning,RLHF,langchain,Agent,MOE,RAG 等。
熟悉算法和数据结构,熟悉常用的编程语言,有较好的 Python 开发经验,编程基础扎实。
了解或掌握机器学习、深度学习基本算法原理,熟悉 AI 建模流程,在 NLP 领域有开发经验优先。
了解熟悉大模型常用训练框架、推理架构;了解分布式计算、并行计算。
联络方式:飞书与@史鹏飞联系
大模型入门指南:
通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。可以用『上学参加工作』这件事来类比大模型的训练、使用过程:
1. 找学校:训练 LLM 需要大量的计算,因此 GPU 更合适,只有购买得起大量 GPU 的贵族学校才有资本训练自己的大模型。
2. 确定教材:大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配。
3. 找老师:即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。
4. 就业指导:学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。
5. 搬砖:就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)。
在 LLM 中,Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表。
2024 年人工智能现状:
More Money,More Problems: 预计明年会有团队花费超过 10 亿美元训练单个大规模模型。GenAI 的热潮不会消退,只是会变得更加昂贵。
Compute Squeeze: 政府和大型科技公司都将继续感受到计算需求的压力,其增长速度超过了电网的支持能力。这就像一个健美运动员增长得太快,健身房都快承受不住了——在某个时候,天花板可能会坍塌。
AI Enters Elections: 预期的 AI 对选举和就业的影响尚未显现,但这并不意味着我们可以放松警惕。记住,AI 的影响就像闪光粉:一旦出现,多年来你会在各处发现它。
人工智能仍然是令人兴奋的突破、未解决的伦理问题和无数万亿美元赌注的混合体。随着 OpenAI 在某些领域领先,Meta 在其他领域崛起,以及中国实验室不受制裁影响而上升,2024 年的 AI 舞台感觉更像是一个拥挤的拳击台,而不是一个和平的会议室。所以准备好爆米花,准备好 GPU——我们将迎来又一年的 AI 突破边界、测试极限,并可能改写一些定义。
2025-03-27