要将飞书多维表格接入 Gemini,以下是一些相关的操作步骤和说明:
首先,请注意部分操作需要搭配 Google 云服务或自备 API 才可以正常练习,具体内容请移步这里。友情提示,从这一部分及以后内容,多数都会是配合代码完成的,如果您是 0 代码学习者,尝试看懂提示词,并在一些 AI 产品上尝试使用。
接下来,课程将深入探讨代码部分。为了运行这个笔记本,需要执行一些设置代码。首先,需要导入 utils 并进行身份验证,这意味着需要设置一些凭证和项目 ID,以便能够从笔记本环境调用云端的 Gemini API。项目包含在云中使用的资源和 Gemini API。这个设置过程确保了笔记本能够正确连接和使用 Gemini 模型。
对于本课程,还需要指定一个区域,即代码将在哪里执行。在这种情况下,使用的是 us-central1。
接下来,课程将导入 Vertex AI SDK。Vertex AI SDK 可以看作是一个 Python 工具包,帮助用户与 Gemini 交互。通过这个 SDK,可以使用 Python 调用 Gemini API 并获得响应。
在笔记本中,需要初始化 Vertex SDK。这意味着需要告诉 SDK 以下信息:
通过提供这些信息,Gemini API 就能识别用户身份,并确认用户有权使用 API。
为了使用 Gemini API,需要从 SDK 中导入 generative_model。设置完成后,需要指定具体的模型。这可以通过设置 model 变量来完成,使用刚刚导入的 generative_model,并选择特定的 Gemini 模型。在这个案例中,课程将使用 Gemini 1.0 Pro 版本。这个选择反映了对于当前任务,Gemini Pro 可能是最合适的平衡点,提供了良好的性能和效率。
此外,Gemini 不仅是单一模型,而是一个模型系列,包含不同大小的模型,每种大小都针对特定的计算限制和应用需求而定制。首先是 Gemini Ultra,这是系列中最大和最强大的模型。Gemini Pro 被设计为多功能的主力模型,平衡了模型性能和速度。还有 Gemini Flash,这是一个专门为高容量任务设计的最快、最具成本效益的模型。最后是 Gemini Nano,它是 Gemini 家族中的轻量级成员,专门设计用于直接在用户设备上运行。
请注意,这里的部分操作需要搭配Google云服务或自备API才可以正常练习,具体内容[请移步这里](https://learn.deeplearning.ai/courses/large-multimodal-model-prompting-with-gemini/lesson/9/how-to-set-up-your-google-cloud-account-%7C-try-it-out-yourself-[optional])。(友情提示,从这一部分及以后内容,多数都会是配合代码完成的,如果你是0代码学习者,尝试看懂提示词,并在一些AI产品上尝试使用)[heading2]5.1初始设置[content]接下来,课程将深入探讨代码部分。为了运行这个笔记本,需要执行一些设置代码。首先,需要导入utils并进行身份验证,这意味着需要设置一些凭证和项目ID,以便能够从笔记本环境调用云端的Gemini API。项目包含在云中使用的资源和Gemini API。这个设置过程确保了笔记本能够正确连接和使用Gemini模型。对于本课程,还需要指定一个区域,即代码将在哪里执行。在这种情况下,使用的是us-central1。接下来,课程将导入Vertex AI SDK。Vertex AI SDK可以看作是一个Python工具包,帮助用户与Gemini交互。通过这个SDK,可以使用Python调用Gemini API并获得响应。在笔记本中,需要初始化Vertex SDK。这意味着需要告诉SDK以下信息:1.使用的项目2.想要使用Gemini模型的区域3.用户凭证通过提供这些信息,Gemini API就能识别用户身份,并确认用户有权使用API。为了使用Gemini API,需要从SDK中导入generative_model。设置完成后,需要指定具体的模型。这可以通过设置model变量来完成,使用刚刚导入的generative_model,并选择特定的Gemini模型。在这个案例中,课程将使用Gemini 1.0 Pro版本。这个选择反映了对于当前任务,Gemini Pro可能是最合适的平衡点,提供了良好的性能和效率。
我们在Google开发了一系列高性能的多模态模型Gemini。我们通过图像、音频、视频和文本数据共同训练了Gemini,目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有尖端的理解和推理性能的模型。Gemini 1.0,我们的第一个版本,有三种尺寸:Ultra适用于高度复杂的任务,Pro提供增强性能和可扩展性,适用于大规模部署,Nano适用于设备上的应用程序。每个尺寸都经过特别设计以满足不同的计算限制和应用要求。我们对Gemini模型在广泛的语言、编码、推理和多模态任务上进行了全面的内部和外部基准测试。Gemini在多个任务中获得了SOTA性能,包括语言模型(Anil等,2023;Brown et al.,77.7%2023;Hoffmann et al.,2022年;OpenAI,2023a;Radford等人,2019;Rae等人,2021年),图像理解(Alayrac等人,2022年;Chen等人,2022年;Dosovitskiy等人,音频处理(Radford等人,Google的2023年;张等人,2023年),以及视频理解(Alayrac等人,2022年;Chen等人,2023年。它基于大量的序列模型的工作,机器学习分布式系统来巡礼那大规模模型。
Gemini不仅是单一模型,而是一个模型系列,旨在满足不同需求。可以将其比作为不同工作选择合适工具。这个系列包含不同大小的模型,每种大小都针对特定的计算限制和应用需求而定制。首先是Gemini Ultra,这是系列中最大和最强大的模型。它在广泛的高度复杂任务中提供最先进的性能,包括推理和多模态任务。然而,使用最大的模型并不总是最佳策略。这可以比作用卡车去快速购物,有些过度了。在大型语言模型的世界里也存在类似的权衡。最大的模型虽然非常强大,但有时响应速度可能稍慢。Gemini Pro被设计为多功能的主力模型。它是一个经过性能优化的模型,平衡了模型性能和速度。这个模型具有很强的泛化能力。这些特点使它非常适合需要模型既能力强、提供高质量响应,又能非常高效地提供响应的广泛应用。还有Gemini Flash,这是一个专门为高容量任务设计的最快、最具成本效益的模型,提供更低的延迟和成本。它非常适合需要模型快速提供响应的用例。例如,如果有人正在构建一个需要即时回答常见问题的客户服务聊天机器人,或者开发一个需要跟上快节奏对话的实时语言翻译工具,Gemini Flash对速度和效率的强调使其非常适合这些类型的高要求用例。最后是Gemini Nano。它是Gemini家族中的轻量级成员,专门设计用于直接在用户设备上运行,例如Pixel手机。关于Nano,它是通过一个叫做模型蒸馏的过程来实现的。模型蒸馏可以比作教学过程。一个大型专家模型(老师)将其知识传递给一个更小、更紧凑的模型(学生)。目标是让学生模型学习最重要的技能,而不需要与老师相同的庞大资源。在Nano的情况下,开发者从更大的Gemini模型中提炼知识,创建一个可以舒适地在智能手机和其他设备上运行的模型。