目前谷歌的 Gemini 多模态模型表现如下:
但目前开启条件存疑,例如使用美国加州 IP 和默认英语语言进入 Bard 可能无法找到模型选项进行修改。
云中江树[道阻且长——谷歌最新的Gemini多模态模型体验](https://m.okjike.com/originalPosts/65712609d027b7ac8cd169ad?s=eyJ1IjoiNjQyM2IwMDE4NDg5Njk1NGJjYzhkNWU1In0%3D&utm_source=wechat_session)谷歌最新的Gemini多模态模型系列包括Ultra、Pro和Nano三种型号,能够处理图像、音频、视频和文本。Gemini的优势在于原生多模态能力,一个模型即可完成多种任务。目前Gemini的多模态能力有限,幻觉问题和多语言表现不佳仍存在。Gemini的体验不如ChatGPT,特别是对中文的理解能力较弱。然而,谷歌在生成质量和与搜索生态结合方面有显著进步,体验比bing和GPT好。郎瀚威Will谷歌的Gemini能使用户停止流向OpenAI吗?Google和OpenAI的对比:ChatGPT粉丝会重新回到Google吗?随着时间推移,很可能OpenAI短期内有开发者优势,但长期可能回到谷歌生态OpenAI尚未充分挖掘应用端实力OpenAI尚未挖掘终端能力,并对终端覆盖有限。拭目以待2024进展!信息平权[Gemini意味着什么](https://mp.weixin.qq.com/s/r4FNyhJY-ttuS4GZ1-cP8g)先说一下后续影响1.GPT-4.5可能要被迫提前出战了2.Anthropic第一个多模态版本的Claude估计也快了(是不是像Gemini一样的端到端多模态?可能算力不支持)3.开源模型们什么时候出多模态?(这个可能更难...)4.谷歌Gemini对AI应用的意义,要超过OpenAI,对应用的诞生可以更乐观一点。5.谷歌物美价廉的TPU、以及遥遥领先的光互联网络(可与Nvlink IB一战),相关投资会加强。
以下内容持续更新中,设置为全员可编辑了,大家有信息和想法,可以随时在本文档编辑补充性能匹敌GPT4的模型出来了Gemini在多个领域的性能达到了最先进的水平。例如,Gemini Ultra在MMLU(大规模多任务语言理解)上的表现超过了人类专家,这是一个测试世界知识和问题解决能力的组合,包括数学、物理、历史、法律、医学和伦理等57个科目。Gemini被设计为天生的多模态模型,从一开始就在不同模态上进行预训练,然后通过额外的多模态数据进行微调,以进一步提高其有效性。这使得Gemini能够从根本上更好地理解和推理各种输入。可以先去Bard试一试Gemini Pro模型了(开美国节点)。https://bard.google.com/chat【目前开启条件存疑,我使用了美国加州IP+默认语言为英语,但是进入bard的设置里并没有模型选项可以修改】
我发誓,这是本文最后一个工业设计的Case了,后面还有游戏设计、自媒体应用等更多元的Case,一个比一个精彩。⬇️我其实一贯AI评测挺克制的,但在测试Gemini文生图的4小时内,基本每分钟都在发出粗鄙的感慨……这个Case就是进一步模拟工业设计的造型推敲环节。原本我们会需要大量的时间在犀牛(一套工业设计建模软件)中花数天时间建模,再花数天在keyshot(一套工业设计渲染软件)中调整材质、打光出图。而且一旦建模完成后,想要再对模型进行造型调整,简直是对设计师无尽的折磨。现在,Gemini在20s内就给你一次性生成12张?……[heading2]主测试4:抠图、换背景、打光影[content]搞定了产品设计,正常商业流程中,我们还要解决一下最终宣发的物料问题。这时候离不开抠图、换背景、打光影拍照的工作流程。先抠个图,无中生有地换背景:没问题,换的非常好。再看看商业级别的背景合成与打光:再引用一个WaytoAGI上看到的例子:绝了,每次都只用一句嘴炮,就能在10s内取得相当稳定的预期结果。甚至复杂的形体打光,也能做的有模有样。OK,fine,测到这里,我只想说:——大碳奸恭迎硅基老爷重塑人类社会。