Chat with Wiki - 大模型训练师

Answer

以下是关于大模型训练师的相关信息：

招聘信息：中国移动设计院正在招聘大模型开发工程师，办公地点在北京海淀中关村。

数量：1 名
学历：本科及以上
资历：5 年及以上
岗位要求：
- 参与大模型技术研究、大模型微调、大模型智能体研发、基于大模型的应用研发等工作。
- 大模型相关的数据工程，包括预训练数据、微调数据、行业数据挖掘等。
- 大模型相关的落地实现：如推理优化、部署、AI-Agent、工具学习、领域大模型等。
技能要求：
- 了解大模型基本原理，包括不限于模型架构、模型预训练及微调、模型部署及推理。
- 熟悉 LLM 相关技术，如 transformer,prompt tuning,RLHF,langchain,Agent,MOE,RAG 等。
- 熟悉算法和数据结构，熟悉常用的编程语言，有较好的 Python 开发经验，编程基础扎实。
- 了解或掌握机器学习、深度学习基本算法原理，熟悉 AI 建模流程，在 NLP 领域有开发经验优先。
- 了解熟悉大模型常用训练框架、推理架构；了解分布式计算、并行计算。

联络方式：飞书与@史鹏飞联系

大模型入门指南：通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。可以用『上学参加工作』这件事来类比大模型的训练、使用过程：

找学校：训练 LLM 需要大量的计算，因此 GPU 更合适，只有购买得起大量 GPU 的贵族学校才有资本训练自己的大模型。
确定教材：大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配。
找老师：即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解 Token 之间的关系。
就业指导：学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）。

在 LLM 中，Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表。

2024 年人工智能现状： More Money,More Problems: 预计明年会有团队花费超过 10 亿美元训练单个大规模模型。GenAI 的热潮不会消退，只是会变得更加昂贵。 Compute Squeeze: 政府和大型科技公司都将继续感受到计算需求的压力，其增长速度超过了电网的支持能力。这就像一个健美运动员增长得太快，健身房都快承受不住了——在某个时候，天花板可能会坍塌。 AI Enters Elections: 预期的 AI 对选举和就业的影响尚未显现，但这并不意味着我们可以放松警惕。记住，AI 的影响就像闪光粉：一旦出现，多年来你会在各处发现它。人工智能仍然是令人兴奋的突破、未解决的伦理问题和无数万亿美元赌注的混合体。随着 OpenAI 在某些领域领先，Meta 在其他领域崛起，以及中国实验室不受制裁影响而上升，2024 年的 AI 舞台感觉更像是一个拥挤的拳击台，而不是一个和平的会议室。所以准备好爆米花，准备好 GPU——我们将迎来又一年的 AI 突破边界、测试极限，并可能改写一些定义。

Content generated by AI large model, please carefully verify (powered by aily)

References

最近招聘信息-持续更新中

中国移动设计院招聘需求（代招）：办公地点：北京海淀中关村需求一AI算法工程师：数量：1名学历：本科及以上资历：5年及以上要求：1、对系统全局调优和预测性维护有一定建模基础2、具有机器学习、深度学习相关项目实践经验，熟悉至少一种算法3、熟悉相关深度学习框架如Tensorflow，能够快速实现研究及设想4、负责AI在智能数据中心、智能网络领域应用研发移动设计院招聘需求需求二大模型开发工程师数量：1名学历：本科及以上资历：5年及以上岗位要求：1、参与大模型技术研究、大模型微调、大模型智能体研发、基于大模型的应用研发等工作；2、大模型相关的数据工程，包括预训练数据、微调数据、行业数据挖掘等；3、大模型相关的落地实现：如推理优化、部署、AI-Agent、工具学习、领域大模型等；技能要求：1、了解大模型基本原理，包括不限于模型架构、模型预训练及微调、模型部署及推理；2、熟悉LLM相关技术，如transformer,prompt tuning,RLHF,langchain,Agent,MOE,RAG等；3、熟悉算法和数据结构，熟悉常用的编程语言，有较好的Python开发经验，编程基础扎实；4、了解或掌握机器学习、深度学习基本算法原理，熟悉AI建模流程，在NLP领域有开发经验优先；5、了解熟悉大模型常用训练框架、推理架构；了解分布式计算、并行计算。[heading4]联络方式：[content]飞书与@史鹏飞联系

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

2024 年人工智能现状：辉煌、戏谑和“牛市”

More Money,More Problems:Expect a group to spend over$1 billion training a single large-scale model next year.The GenAI craze isn’t going anywhere;it’s just getting a pricier wardrobe.Compute Squeeze:Governments and Big Tech alike will continue to feel the crunch of compute requirements,which are outgrowing the power grid’s ability to support them.It’s like a bodybuilder bulking up faster than their gym can handle—at some point,the ceiling might just collapse.AI Enters Elections:Anticipated AI effects on elections and employment haven’t materialized yet,but that doesn’t mean we’re in the clear.Remember,AI’s influence is like glitter:once it’s out,you’ll be finding it in everything for years to come.Artificial intelligence continues to be a mixed bag of thrilling breakthroughs,unanswered ethical questions,and oh-so-many trillion-dollar bets.With OpenAI leading in some areas,Meta in others,and Chinese labs rising undeterred by sanctions,the stage for AI in 2024 feels more like a tightly packed boxing ring than a peaceful conference room.So grab your popcorn and keep those GPUs handy—we’re in for another year of AI pushing boundaries,testing limits,and possibly rewriting a few definitions along the way.