以下是一些多模态应用的案例:
分享人:银海目标:了解并掌握大模型多模态技术的实际应用,学习如何构建基于多模态(如AI拍立得)的实际场景在开始之前,咱们给大家分享几个近期个人认为还是蛮有趣的多模态应用,它们在相机场景中的应用特别有意思。以下几个场景(这里会在直播的过程中进行演示,如果仅看到文档可以去回顾视频回放)第一个是拍立淘,这是淘宝推出的功能,只需要拍个照,系统就能识别商品并直接带你进入购物页面。购物变得更简单,省去了很多搜索的步骤,直接就能买到你想要的东西。第二个是探一下,由支付宝推出的图像搜索引擎。你拍个照片,AI马上帮你识别并进行搜索,不管是商品还是信息,瞬间就能找到相关内容,搜索变得更直观、更高效。最后是诗歌相机,这款应用让你拍照就能生成一首诗,甚至还能打印出来。它把传统的诗意和现代的技术完美结合,真的很有创意,关键它还做成了硬件的形式,给人们不一样的体验。<qa:image>caption=""h="1280"image_token="RNLdbVrJIodYX6xuZ7UcdX89n8g"w="592"</qa>拍立淘<qa:image>caption=""h="1408"image_token="ZhIMbOrryoCheNxUSkYcHwY7nic"w="640"</qa>探一下<qa:image>caption=""h="713"image_token="H6e6bcYoKomKqfxKQ3ScnoVmnEb"w="1080"</qa><qa:image>caption=""h="1415"image_token="QzTQbU8jeoapK9xcpm6cr5Jgnhf"w="1080"</qa>诗歌相机阿里云百炼大模型平台专注给企业侧提供各种原子级别能力,我们在前面几节课中从整体平台到文本知识库。今天,我们就带着大家一起来深入探索一下阿里云百炼上的多模态能力。
尽管聊天界面对许多用户来说令人兴奋和直观,但人类听和说语言的频率可能与写或读语言的频率相当或更高。正如Amodei所指出的:“AI系统能做的事情是有限的,因为并不是所有的事情都是文本。”具备多模态功能的模型能够无缝地处理和生成多种音频或视觉格式的内容,将这种交互扩展到超越语言的领域。像GPT-4、Character.AI和Meta的ImageBind这样的模型已经能够处理和生成图像、音频和其他模态,但它们在这方面的能力还比较基础,尽管进展迅速。用Gomez的话说,我们的模型在字面上今天是盲的,这一点需要改变。我们构建了很多假设用户能够看到的图形用户界面(GUI)。随着LLMs不断进化,更好地理解和与多种模态交互,它们将能够使用依赖GUI的现有应用程序,比如浏览器。它们还可以为消费者提供更加引人入胜、连贯和全面的体验,使用户能够超越聊天界面进行互动。Shazeer指出:“多模态模型的许多出色整合可以使事物更具吸引力和与用户更紧密相连。”他还说:“我认为,目前大部分核心智能来自文本,但音频和视频可以使这些事物更有趣。”从与AI导师进行视频聊天到与AI合作迭代和编写电视剧剧本,多模态有潜力改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。多模态与工具使用密切相关。尽管LLMs最初可能通过API与外部软件进行连接,但多模态将使LLMs能够使用设计给人类使用但没有自定义集成的工具,例如传统的企业资源计划(ERP)系统、桌面应用程序、医疗设备或制造机械。在这方面,我们已经看到了令人兴奋的进展:例如,谷歌的Med-PaLM-2模型可以合成乳腺摄影和X射线图像。而且从长远来看,多模态(特别是与计算机视觉的集成)可以通过机器人、自动驾驶车辆和其他需要与物理世界实时交互的应用程序,将LLMs扩展到我们自己的物理现实中。
<qa:image>caption=""h="240"image_token="AsJsbyHPFoxDaGxv6OGcmp5ln4y"w="532"</qa><qa:image>caption=""h="371"image_token="PuCtbXxX3oFKIOx0cv9cbjcQn7d"w="509"</qa>把图二中的机器人合成到图一的环境中,保持比例大小和机器人细节,统一整体光影和氛围感<qa:image>caption=""h="229"image_token="YZlXbPMwQoSn0ExXr3Vc8GKlnQo"w="537"</qa><qa:image>caption=""h="549"image_token="S45wbTCXLo0FZcxx1FZczTEkncf"w="510"</qa>把图一的凶兽和图三的人物,融入到图二的场景中,保持角色一致性和正常比例,融合自然,画面感震撼,光影细节饱满[heading1]23、小红书风格卡片[content]<qa:image>caption=""h="113"image_token="OhjdbyQr5o1z3lxDfa0cTcTDnU8"w="540"</qa><qa:image>caption=""h="658"image_token="XcDIbm3YZoFbNQxGPr5cmgIYnne"w="425"</qa>使用neobrutalism风格生成一个小红书卡片,里面的内容是关于设计师要被AI取代的,表现夸张,具有丰富的视觉张力,文字用中文[heading1]24、Logo转3D效果[content]<qa:image>caption=""h="311"image_token="HWwhb35MIoClVSxZzpqcMzVSnVf"w="547"</qa><qa:image>caption=""h="377"image_token="UiVjb6UFkos228xdqRIcXHD4njN"w="513"</qa>把这个图标改成3D立体效果、毛玻璃效果、毛绒效果,放在一张图片里,供我参考[heading1]25、示意图转卡通漫画[content]<qa:image>caption=""h="357"image_token="AuBxbTgOyoGdv3xnlIlchhGenze"w="418"</qa><qa:image>caption=""h="664"image_token="JtjabuuEGorKVFxhIZhcffjknRe"w="436"</qa>把这个示意图转成幼儿园小朋友都可以看懂的漫画,并配上中文文字说明[heading1]26、遥感理解(图像数据)[content]<qa:image>caption=""h="474"image_token="R6cob1CvqoAECpxFyudcX5pGnPa"w="528"</qa><qa:image>caption=""h="652"image_token="PHNwb6FCpoMCdtxnjxfcykoMnDg"w="424"</qa>识别一下图中的建筑物,并用色块标注出来,叠加在原图上输出[heading1]27、包装图直出效果[content]<qa:image>caption=""h="301"image_token="FPUqb46OfoxONmxOk4tcFWNBn3f"w="450"</qa><qa:image>caption=""h="655"image_token="ZlT6bCmKKo57ubxeKD7c8rP8ncb"w="431"</qa>帮我生成图片对应的包装侧面效果图,站在一个空间中[heading1]28、参考生成海报图[content]<qa:image>caption=""h="411"image_token="E9YEbZ7y6o9mCOxEyWpcnKK9n1b"w="420"</qa><qa:image>caption=""h="649"image_token="AF1ibTkuZo6ZZkxsdVJcjwdBnde"w="432"</qa>参考这个小红书封面,生成一个PPT设计相关的封面图[heading1]29、三维建模模拟[content]<qa:image>caption=""h="350"image_token="Cir3bVHwIoEamMxBOomc8ApGnPg"w="536"</qa><qa:image>caption=""h="524"image_token="EaPIbTsnmoA6Vbx540ucU1KFn3g"w="495"</qa>将这张图片转化为3D max建模渲染界面,可以加入对应的UI界面[heading1]30、手办三视图[content]<qa:image>caption=""h="459"image_token="UUsibvEtDoHUhbxVKFGcarfxn7g"w="548"</qa><qa:image>caption=""h="380"image_token="Q9Ofb7kcIoFT8TxlIKpcLp5FnDe"w="519"</qa>人物的样貌、神态完全保留。做成3D手办,头部特写略大,头发不凌乱,身体是完整的、迷你的、三头身,服装换成帅气的男生衣服,三视图,正面,侧面,背面