Google 的多模态大模型叫 Gemini。Gemini 是由 Google DeepMind 团队开发的,它不仅支持文本、图片等提示,还支持视频、音频和代码提示。能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出。被称为 Google 迄今为止最强大、最全面的模型,是一种“原生多模态大模型”,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。
Gemini report 有中文翻译,源文档为:https://storage.googleapis.com/deepmindmedia/gemini/gemini_1_report.pdf 。本报告介绍了一种新的多模态模型 Gemini,它在图像、音频、视频和文本理解方面具有卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸,适用于从复杂的推理任务到设备内存受限的应用场景。
可以使用 Gemini 拆解视频,例如使用 Gemini 1.5 Pro 进行视频分析和拆解。有测试者表示拆解准确度很高,如阿强将用 AI 做的功夫熊猫相关视频丢进去分析,效果很好。
2025-03-18