Chat with Wiki - 图像识别能力强的大模型

Answer

目前，图像识别领域中一些能力较强的大模型包括：

百度智能云的AI图像识别技术：这项技术利用深度学习算法模拟人脑的神经元网络，对图像进行预处理、特征提取和分类器识别，广泛应用于安全、医疗、交通等领域。
北京大学张史梁长聘副教授课题组的多模态大模型Pink和LocLLM：这些模型通过为大语言模型添加图像细粒度指代分析能力，实现了对图像中特定物体和人体的细粒度感知，并在多模态任务、指代感知任务以及人体感知任务上展现出优秀的性能和泛化能力。
百度AI的通用物体和场景识别：这项服务能够识别超过10万类常见物体和场景，支持获取识别结果对应的百科信息，并且可以使用EasyDL定制训练平台进行定制识别。
Vision Transformer (ViT)：由Google Brain团队推出，将传统的CNN替换为Transformer架构，实现了在图像识别任务中的显著性能提升。
Meta开源的DINOv2视觉大模型：这些模型使用自监督的方式进行训练，无需微调就能用于分类、分割、图像检索、深度估计等多种视觉任务。

这些大模型展示了AI在图像识别领域的强大能力，能够处理各种复杂的视觉任务，并在不同的应用场景中发挥作用。

Content generated by AI large model, please carefully verify (powered by aily)

References

对于图像，一般有四个可选的编码器，NFNet-F6，ViT，CLIP VIT，EVA-CLIP ViT。NFNet-F6：是一个无归一化的ResNet网络，可以在增强过的数据集上获得SOTA的图像识别的性能。VIT：采用transformer模型，将image变成patch，然后对图像进行处理。然后经过线性投影flatten，然后经过多个transformer模块。CLIP-VIT：利用大量的文本-图像快，通过对比学习来优化ViT，将成对的文本图像视为正样本，其他的文本和图像视为负样本。EVA-CLIP：对大规模的CLIP训练稳定了训练过程和优化过程。对于视频，可以统一采样5帧，进行与图像同样的处理。

Gemini report 中文翻译

我们评估了模型在四个不同的能力上：使用caption或问答任务（如VQAv2）进行高级对象识别；使用TextVQA和DocVQA等任务进行细粒度转录，要求模型识别low-level的细节；使用ChartQA和InfographicVQA任务要求模型理解输入布局的空间理解以及使用Ai2D、MathVista和MMMU等任务进行多模态推理。对于zero-shot QA评估，模型被指示提供与特定基准对齐的简短答案。所有数字都是通过Greedy Sampling获得的，没有使用任何外部OCR工具。我们发现Gemini Ultra在表7中的各种图像理解基准测试中都是最先进的。它在回答自然图像和扫描文档的问题，以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。与其他模型（尤其是GPT-4V）公开报告的结果相比，Gemini在zero-shot评估中表现更好。它还超过了几个专门在基准训练集上进行微调的现有模型，适用于大多数任务。Gemini模型的能力在学术基准测试中取得了显著的改进，如MathVista（+ 3.1%）或InfographicVQA（+ 5.2%）。

Han：基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间| |-|-|-|-|-|-|-|-|-|-|-|-|-|-| |VCoder：大语言模型的眼睛|可以想象的应用场景： 智慧城市，智慧交通，自动驾驶等对内容识别和内容统计+AI对应响应机制|视频,图片|VCoder的一个视觉编码器，能够帮助MLLM更好地理解和分析图像内容。提高模型在识别图像中的对象、理解图像场景方面的能力。 它可以帮助模型显示图片中不同物体的轮廓或深度图（显示物体距离相机的远近）。还能更准确的理解图片中的物体是什么，甚至能数出图片中有多少人。|它的功能包括： 1、增强视觉感知能力：VCoder通过提供额外的视觉编码器，帮助MLLM更好地理解和分析图像内容。 2、处理特殊类型的图像：VCoder能够处理分割图和深度图等特殊类型的图像。分割图可以帮助模型识别和理解图像中不同物体的边界和形状，而深度图则提供了物体距离相机远近的信息。