GPT-4V 的 Preview API 用量限额终于放宽了一些,因此我们也第一时间给知识助手加上了识图功能,让用户可以体验真正的多模态大模型。
用法很简单:上传图片,问它关于图片的问题,它会给你对应的答案。
如下图:
上传图片,输入 Prompt,点击发送:
至于用什么姿势来使用 GPT-4V,我们可以从两个月前微软的一份一百多页的报告中找到指引。
这里我简单列一下报告中展现的 GPT-4V 的一些能力,更多详细内容,你可以点击这里查看原文和译文,或者注册 SimplifyAI 的知识助手,亲手体验一下。
理解和描述图像中出现的物体,是我们能想象的最基础的识图能力。
这方面 GPT-4V 并没有让我们失望,它能准确地识别和描述人物、地标、食物、场景,甚至医学影像。你还可以问它图像中没有的东西,它会告诉你那些东西不存在。
在反事实问题 的例子中,你可以故意问它图片中不存在的事物,它也能正确应对。
GPT-4V 在对图像中人与物体、物体与物体之间空间关系的理解上,展现了比较强的能力。
我们也可以进一步让 GPT-4V 把物体的位置指出来,但它的这方面能力在遇到较复杂的情况时,会有点吃力。下图中,GPT-4V 返回的是坐标,红色框是用另外的软件呈现出来的。
也可以让它对图像中的物体技术,但数字可能会错。
有趣的是,我们可以通过优化 Prompt 来改善它的计数能力。见下面的例子:
报告中展示了 GPT-4V 对流行梗的理解能力,但因为那些都是英文世界的例子,我这里就只摘科学知识和常识的例子。
你甚至可以让它扮演一名侦探,从视觉线索中推断出各种信息,见下图最后一个例子:
最能体现生产力的,还是从图像中的文本、表格、图表中提取出信息并推理解答的能力。
你还可以把数学题目的图像直接发给它,让它解题,如下图:
真是把流程图发给它,让它生成对应的 Python 代码(嗯,这让我想起来那个用纸巾画了个网站草图,让它生成代码的例子):
你可以在图像中圈出一定区域、或者添加箭头标识来向它提问。
以上,就是微软报告中展现的 GPT-4V 的其中一些能力。更多详细内容,你可以点击这里查看原文和译文,或者注册 SimplifyAI 的知识助手,亲手体验。