目前实现强人工智能还面临一些挑战,缺乏以下要素:
此外,具身智能作为人工智能与物理世界交互的一种范式,强调智能体与物理环境之间的交互,其三要素包括本体(硬件载体)、智能(大模型、算法等)、环境,行动分为感知、决策、行动、反馈四个模块,并形成闭环。不同环境下需要不同形态的硬件本体适应,智能算法可通过本体传感器感知环境、做出决策并影响环境,还能通过交互学习和拟人化思维适应环境实现智能增长。
我试图总结AI发展的五个阶段,供大家参考:第一,小模型阶段,能力单一,无法泛化,无法做到理解,只能干点活儿,就像原来的人脸识别。所以,我早期的人脸识别公司为什么没有掀起工业革命,虽然他们做的也很辛苦,但是很不幸出现在人智障阶段。第二,GPT出现,AGI迎来拐点,机器实现与人类的交流。第三,Sora的出现,打开了AGI的大门,能够认知世界,跟世界互动。所以,未来五年,我觉得Sora加大算力,加大训练,跟具身机器人结合在一起,我认为户加速智能的提升。我觉得现在Sora的训练算力可能还受到一些限制,所以这是第三个阶段。第四,我觉得是强人工智能。现在机器已经能看懂一些常识了,也能交流了,机器还缺什么?大家想象,还缺对这个世界的一些力量的感知,比如说,加速度,比如重力,机器人自己摔了一跤,比如有人推动它怎么办?所以,现在热炒具身智能,这是理解世界的互动,但还不能与世界互动。下一步是能够跟物理世界互动,这样知道别人推它是怎么回事,拿一个鸡蛋是什么总量,怎么打一个鸡蛋?最后,我幻想,如果它最后能够总结出来世界的规律,幻想它能达到爱因斯坦的水平,能够总结出公式,能够像牛顿一样看到苹果从树上掉下来,能够总结重力的公式,这已经超越地球上的所有人了,因为牛顿和爱因斯坦一万人各出了一个,这就叫超级人工智能。所以,我为了让自己的预言能够成功,我们对AGI的要求不要太高,不要到第五步才叫AGI,第五步叫超级人工智能,到那一步大家再担忧硅基生物是不是会消灭碳基生物,到那一步才需要担心。第三步、第四步都可以定义成AGI。
那么我们还缺少什么?Ilya谈到了几个关键点:理解能力。我们需要更深入地理解训练过程中发生的事情,而不是简单提出新想法:“真正重要的是洞悉事物本质、理解根本原因。你需要问—为什么我们这么做,而不是那样做?”实验迭代。没有捷径可言,需要大量试错:“你运行了神经网络,得到一些意外的行为,这很难理解。你需要从不同层面推测和验证。”可靠性。最终我们需要信任模型的输出。这关乎整个系统的成熟度:“如果模型不够可靠,技术上的成熟度就达不到要求。”控制能力。同时,我们还需要指导和控制模型的行为:“如果系统既可靠又可控,就可以解决很多问题。”可见,Token预测只是通向AGI的第一步。在Ilya看来,理解、试错、可靠性和控制,这些才是关键。最后,他谦虚而又充满信心地总结道:“我会继续努力,至今为止这都是有效的。这是必要条件,但还不够,我们仍需在许多层面上下功夫。”[heading2]Token预测的深层内涵[content]当前的语言模型都是基于next token prediction,也就是预测句子的下一个词的任务进行训练的。Ilya认为这看似简单的一个任务背后蕴含了深层的智能:“要预测下一个词汇做得足够好,这实际上是一个比看起来更加深刻的问题。因为预测下一个词汇做得好意味着你理解了产生那个词汇的基础现实。这并不是统计学,这是你需要去理解那些统计数据背后的世界本质。”如果模型可以从有限的数据中推断出这些深层规则,那么它就可以模拟出一个更加智能的假想角色。
具身智能,即“具身+智能”,是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以ChatGPT为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机APP与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,从而实现感知环境、规划、记忆以及工具调用,执行复杂的任务。在这些基础之上,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。通俗一点讲,就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机,可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体,是具身智能的代表产品。具身智能的三要素:本体、智能、环境具身智能的三要素:“本体”,即硬件载体; “智能”,即大模型、语音、图像、控制、导航等算法; “环境”,即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人,崎岖不平的地面更适用四足机器人(机器狗)。在具身智能体与环境的交互中,智能算法可以通过本体的传感器以感知环境,做出决策以操控本体执行动作任务,从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境,从而实现智能的增长。具身智能的四个模块:感知-决策-行动-反馈一个具身智能体的行动可以分为“感知-决策-行动-反馈”四个步骤,分别由四个模块完成,并形成一个闭环。感知模块