chatgpt吧 关注:134,533贴子:408,078
  • 1回复贴,共1

模型多模态能力测试

只看楼主收藏回复

笑点解析,但是是综合能力考察版()
模型(说明)(成绩)
GPT-4V(ChatGPT Plus、OpenAI API)(80)
通义千问(APP端)(65)
Copilot(GPT-4,但实际上Copilot识图调用的是外部模型,识别效果与你是否使用GPT-4无关) (65)
GLM-4(20)
文心 4.0(仅能通过插件获取图片的一个大致描述,并且这个插件使用体验十分难绷,只能单独发送图片,不能同时带上你想发的文字)(20)
Gemini Pro(Google AI Studio)(10)
Bard(无成绩)
有些模型的解析过程确实令人忍俊不禁。
日常使用中,Copilot识图经常抽风,会把很明显的东西认成别的毫不相干的东西,Bard则表现平平无奇,约10-20分。谷歌吹的多模态果然只是“概念”,这下Gemini Pro不仅模型本身比不上文心一言,多模态水平还很烂
仅ChatGPT Plus中的GPT-4V可以在对话中对同一张图进行多次查看,并且可以观察不同的重点(在日常使用中也能看得出来)效果还很好,遥遥领先!
阿里的通义千问模型自身表现就很好,尤其是对齐效果,没想到多模态也很强,继续努力!(阿里的夸克扫描王APP也很赞,识别公式、扫描文档、去水印等功能都在使用大模型改善效果,相当强大!)









IP属地:陕西来自Android客户端1楼2024-01-24 17:58回复
    都是长图!可以点开查看全部哦!


    IP属地:陕西来自Android客户端2楼2024-01-24 18:00
    回复