OpenAI 周三宣布对其最先进的人工智能语言模型 GPT-4 Turbo 进行更新。现已获得视觉功能,使其能够分析多媒体输入。这意味着它现在可以
OpenAI 周三宣布对其最先进的人工智能语言模型 GPT-4 Turbo 进行更新。现已获得视觉功能,使其能够分析多媒体输入。这意味着它现在可以分析图像并提供见解。此功能将通过 API 提供给开发人员以及通过 ChatGPT 向公众提供。
OpenAI 的开发者帐户在 X(以前称为 Twitter)上宣布了 GPT-4 with Vision。该帖子称“GPT-4 Turbo with Vision 现在已在 API 中普遍可用。视觉请求现在也可以使用 JSON 模式和函数调用。”
借助视觉功能,它可以分析图像并解密它们。该公司还分享了一些有关此功能如何工作的示例。多个品牌将使用 Vision 功能的更新 API。
总部位于班加罗尔的 Healthfy Me 还使用其更新的 API 和 Vision 功能,让客户更轻松地跟踪宏。用户只需将摄像头对准食物,AI 模型就会告诉宏并建议你饭后是否需要走路。
至于ChatGPT,该功能将向 Plus 用户开放。对于不熟悉的人来说,ChatGPT Plus 是付费订阅,每月费用为 20 美元。 Plus 用户只需在聊天中将照片发送到 ChatGPT,并要求其提供对图像的见解。例如,如果您发送一张像哈利法塔这样的旅游目的地的照片,那么它会告诉您该地点的详细信息,例如高度、建造材料以及其他类似信息。
OpenAI 使用截至 2023 年 12 月可用的训练数据来训练 GPT-4 Turbo with Vision。这与该模型的先前版本相同。 ChatGPT 的免费版本使用 GPT-3.5,并且未使用最新数据进行训练。它已使用 2021 年 9 月之前可用的数据进行训练。也就是说,它无法提供最新信息或像 GPT-4 Turbo with Vision 那样分析图像。
当我们询问基于 GPT-3.5 的 ChatGPT 时,它回答说“恐怕我无法直接分析图像,因为我是基于文本的人工智能,无法访问视觉输入。”
在有关 OpenAI 的其他新闻中,该公司的Dall-E 收到了更新。 Dall-E 现在允许用户直接在 ChatGPT 中编辑 AI 生成的图像。阅读链接的文章以了解具体操作方法。
声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们