以下是为您整合的相关内容:
GPT-4 在通用人工智能的工具使用方面表现出色,能够完成几乎所有任务,包括结合多个工具管理用户的日历和电子邮件。但它也存在一些弱点,如缺乏当前世界知识、难以进行符号操作等,不过能通过使用搜索引擎或 API 等外部工具来克服部分限制。相比之下,ChatGPT 在完成同样任务时存在较多不足。
Andrej Karpathy 亲授的大语言模型入门中提到,ChatGPT 在数学方面不擅长,会使用计算器和工具来完成相关任务,如计算估值、绘制图表、添加趋势线和进行分析等。
尽管挑战覆盖范围很广(完成所有任务需要超过100个命令),GPT-4能够完成几乎所有任务。它唯一的失败是在回复电子邮件时编造内容,而不是从文件中读取指定的内容(附录F.1.1),一个简单的提示修正就解决了这个问题(附录F.1.2)。虽然GPT-4经常表现出创造力(例如手动运行广度优先搜索以导航目录),但它经常运行不正确的命令,例如删除具有空格名称的文件(例如「Polar Bear.txt」)而没有添加引号。然而,它能够在系统响应(「无法找到」)的情况下自我纠正。有趣的是,即使它可以预测到错误命令会产生什么错误消息,一旦出现错误模式,它在后续具有空格的文件中也会犯同样的错误(并始终应用相同的纠正)。我们的假设是,一旦建立了错误模式,它就像模拟一个反复犯同样错误的用户一样重复该模式,而不再尝试更正。-管理日历和电子邮件-在下图中,我们说明了GPT-4如何能够结合多个工具来管理用户的日历和电子邮件。用户要求GPT-4与帮他与另外两个人协调晚餐,并在用户有空的晚上预订餐厅。GPT-4使用可用的API检索用户日历的信息,通过电子邮件与其他人协调,预订晚餐,并向用户发送详细信息。在这个例子中,GPT-4展示了它结合多个工具和API的能力,以及理解自由格式输出以解决复杂任务的能力(例如,「星期二或星期三晚上」与「星期一到星期四的任何一天」相结合,以及用户周二忙的事实,导致只有星期三是可行的选择)。ChatGPT(未显示)无法完成同样的任务,而是编写了一个函数,其中「joe@microsoft.com」发送电子邮件给「luke@microsoft.com」,包含一个日期,并检查响应中是否包含令牌「yes」。当ChatGPT得到其函数的输出时,它也无法回复。
尽管在先前的各个任务中表现出令人印象深刻的性能,但GPT-4仍然存在着各种广为人知的语言模型的弱点。这些弱点包括(但不限于)缺乏当前世界知识、难以进行符号操作(例如数学)以及无法执行代码。例如,在下图中,GPT-4使用过时的信息回答第一个问题,并未能对第二个和第三个问题执行适当的操作。ChatGPT拒绝回答第一个问题,并且在其他问题上也失败了。然而,GPT-4能够使用搜索引擎或API等外部工具来克服这些(和其他)限制。例如,在下图中,我们展示了一个简单的提示,使GPT-4可以访问搜索引擎和其他功能。在执行过程中,当调用这些函数之一时,我们会暂停生成,调用适当的函数,将结果粘贴回提示中,并继续生成。在这些简单的示例中,GPT-4能够非常简单地使用工具,无需演示,然后适当地利用输出(请注意,第二个搜索结果包含潜在的冲突信息,但GPT-4仍能推断出正确答案)。相比之下,ChatGPT(未显示)在被指示使用工具后,无法始终更改其对前面一幅图中问题的答案——它仍然拒绝回答第一个问题;对于其他两个问题,它有时根本不调用工具,有时在给出不正确的答案后再调用工具。虽然在下图中我们指定了哪些工具可用,但GPT-4也可以列出解决任务所需的工具(或API函数)清单(附录中的示例中,图F.2中,GPT-4列出了需要完成任务的四个API函数,然后成功地使用它们)。
好的,我们现在可以继续这种互动了。所以我说,让我们尝试根据我们在C、D和E轮中看到的比率来估算A轮和B轮的估值。你会看到在C、D和E轮中,筹集的金额与估值有一定的比例关系。你和我会如何解决这个问题?如果我们试图归咎于不可用,那么,你不会只是在脑海中尝试解决它,因为这将是非常复杂的,我们的数学能力可能不够好。同样,ChatGPT在脑海中也不擅长数学。所以,实际上,ChatGPT知道它应该使用计算器来完成这类任务。因此,它再次发出特殊的单词,向程序表明它想要使用计算器,并计算这个值。实际上,它所做的是基本上计算所有比率,然后根据这些比率计算出A轮和B轮的估值,无论是什么,7000万和2.83亿。现在我们想做的是,我们拥有所有不同轮次的估值,所以让我们将其组织成一个二维图表。我所说的是,x轴是日期,y轴是scale.ai的估值。y轴使用对数刻度,这样图表看起来非常美观、专业,并且使用了网格线。ChatGPT实际上可以再次使用工具,在这个例子中,它可以编写使用Python中的matplotlib库来绘制这些数据的代码。因此,它进入Python解释器,输入所有值,并创建了一个图表,这就是图表。所以这在底部显示了日期,并且完全按照我们用纯英语提出的要求完成了。你可以像与一个人交谈一样与它交谈。所以现在我们正在研究这个问题,并且我们想做更多的任务。例如,现在让我们在图表中添加一条线性趋势线,并推断到2025年底的估值。然后在今天创建一条垂直线,并根据拟合情况告诉我今天和2025年底的估值。ChatGPT开始编写所有未显示的代码,并给出分析。因此,在底部,我们有日期,我们已经推断出这就是估值。