人工智能公司 OpenAI 周一发布了其新模型 GPT-4o,其速度比之前的模型快得多。该公司在一份声明中表示,GPT-4o(o代表omni)是朝着更
人工智能公司 OpenAI 周一发布了其新模型 GPT-4o,其速度比之前的模型快得多。
该公司在一份声明中表示,GPT-4o(“o”代表“omni”)是朝着更自然的人机交互迈出的一步,因为它可以接受任意文本、音频和图像组合的输入,同时可以生成任意文本、音频和图像组合的输出。
它补充道:“它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。”
此外,该公司表示,GPT-4o 在视觉和音频理解方面比现有模型更胜一筹,同时可以实时推理音频、视觉和文本。
虽然 GPT-4 由于无法直接观察音调、多个说话者或背景噪音而丢失了大量信息,也无法输出笑声、歌声或表达情感;但 GPT-4o 提供了由同一个神经网络处理的所有输入和输出。
微软支持的 OpenAI 表示,GPT-4o 还与社会心理学、偏见与公平、错误信息等领域的 70 多位专家进行了广泛的合作,以识别新增加的模式所带来的风险。
声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们