【图片】模型多模态能力测试【chatgpt吧】

chatgpt吧关注：134,533贴子：408,078

1回复贴，共1页

模型多模态能力测试

笑点解析，但是是综合能力考察版（）
模型（说明）（成绩）
GPT-4V（ChatGPT Plus、OpenAI API）（80）
通义千问（APP端）（65）
Copilot（GPT-4，但实际上Copilot识图调用的是外部模型，识别效果与你是否使用GPT-4无关）（65）
GLM-4（20）
文心 4.0（仅能通过插件获取图片的一个大致描述，并且这个插件使用体验十分难绷，只能单独发送图片，不能同时带上你想发的文字）（20）
Gemini Pro（Google AI Studio）（10）
Bard（无成绩）
有些模型的解析过程确实令人忍俊不禁。
日常使用中，Copilot识图经常抽风，会把很明显的东西认成别的毫不相干的东西，Bard则表现平平无奇，约10-20分。谷歌吹的多模态果然只是“概念”，这下Gemini Pro不仅模型本身比不上文心一言，多模态水平还很烂
仅ChatGPT Plus中的GPT-4V可以在对话中对同一张图进行多次查看，并且可以观察不同的重点（在日常使用中也能看得出来）效果还很好，遥遥领先！
阿里的通义千问模型自身表现就很好，尤其是对齐效果，没想到多模态也很强，继续努力！（阿里的夸克扫描王APP也很赞，识别公式、扫描文档、去水印等功能都在使用大模型改善效果，相当强大！）