GPT-4V 的识图体验,想象空间巨大
SimplifyAI
2023-11-30

GPT-4V 的 Preview API 用量限额终于放宽了一些,因此我们也第一时间给知识助手加上了识图功能,让用户可以体验真正的多模态大模型。

用法很简单:上传图片,问它关于图片的问题,它会给你对应的答案。

如下图:

上传图片,输入 Prompt,点击发送:


至于用什么姿势来使用 GPT-4V,我们可以从两个月前微软的一份一百多页的报告中找到指引。

这里我简单列一下报告中展现的 GPT-4V 的一些能力,更多详细内容,你可以点击这里查看原文和译文,或者注册 SimplifyAI 的知识助手,亲手体验一下。


图像描述能力

理解和描述图像中出现的物体,是我们能想象的最基础的识图能力。

这方面 GPT-4V 并没有让我们失望,它能准确地识别和描述人物、地标、食物、场景,甚至医学影像。你还可以问它图像中没有的东西,它会告诉你那些东西不存在。

在反事实问题的例子中,你可以故意问它图片中不存在的事物,它也能正确应对。

理解空间关系、定位物体和计数

GPT-4V 在对图像中人与物体、物体与物体之间空间关系的理解上,展现了比较强的能力。

我们也可以进一步让 GPT-4V 把物体的位置指出来,但它的这方面能力在遇到较复杂的情况时,会有点吃力。下图中,GPT-4V 返回的是坐标,红色框是用另外的软件呈现出来的。

也可以让它对图像中的物体技术,但数字可能会错。

有趣的是,我们可以通过优化 Prompt 来改善它的计数能力。见下面的例子:

知识、常识和流行梗 - 让 GPT-4V 帮你做老师或侦探

报告中展示了 GPT-4V 对流行梗的理解能力,但因为那些都是英文世界的例子,我这里就只摘科学知识和常识的例子。

你甚至可以让它扮演一名侦探,从视觉线索中推断出各种信息,见下图最后一个例子:

文本、表格、图表和文档推理

最能体现生产力的,还是从图像中的文本、表格、图表中提取出信息并推理解答的能力。

你还可以把数学题目的图像直接发给它,让它解题,如下图:

真是把流程图发给它,让它生成对应的 Python 代码(嗯,这让我想起来那个用纸巾画了个网站草图,让它生成代码的例子):

理解指向输入

你可以在图像中圈出一定区域、或者添加箭头标识来向它提问。


以上,就是微软报告中展现的 GPT-4V 的其中一些能力。更多详细内容,你可以点击这里查看原文和译文,或者注册 SimplifyAI 的知识助手,亲手体验。

LLM
LMM
多模态大模型
GPT-4V
© 深圳市群蜂信息技术有限公司 2020-2024
粤ICP备2021006232号