Agent智能体AI 聊天问答

GPT-4o

OpenAI 最新发布的旗舰生成式AI模型,可以实时进行音频、视觉和文本推理

标签:

GPT-4o 是什么

GPT-4o 是 OpenAI 最新发布的旗舰AI模型,能够实时进行音频、视觉和文本推理等多模态交互,该模型可以实时响应用户对话,甚至在语音对话中能捕捉用户声音中的情感,并生成 “一系列不同情感风格 ”的语音,极大地改善了 ChatGPT 的体验,让用户可以像与真人对话一样与 ChatGPT 互动。

GPT-4o

GPT-4o 文本和图像输入将于今天(5月13日)开始在 API 和 ChatGPT 中推出,并且向所有用户免费开放 试用,语音和视频模式将在未来几周内推出。

GPT-4o 功能特性

✅ 多模态人机交互
GPT-4o 是朝着更自然的人机交互迈出的一步——它接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合输出。

✅ 实时的对话响应
GPT-4o 可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间(在新窗口中打开)相似。

✅ 拟人的语音交互
GPT-4o 的语音对话带有语气和情感,可以识别用户心情状态并模拟人与人的自然交流,可以讲故事、可以唱歌、可以drama、可以学机器人发音等等。

✅ 摄像头视觉感知
GPT-4o 可以通过摄像头实时感知并理解文字、影像等内容,比如通过视频镜头解答数学题目或分析人物, “这道数学题该怎么做 “、 “这个人穿的是什么牌子的衬衫?”,并且可以语音回答讨论。

✅ 多语言同声传译
GPT-4o 支持超过50种语言的实时翻译,可以根据接收到的语言灵活应对,比如英语与意大利语实时同声传译。

✅ 模型安全性升级
GPT-4o 通过过滤训练数据和通过后训练优化模型行为等技术,在各个模态中内置了安全性。我们还创建了新的安全系统,为语音输出提供护栏。

✅ API 接口升级
在 API 使用方面,GPT-4o 的价格是GPT-4-turbo的一半,响应速度是 GPT-4-turbo 的两倍,同时使用限额也比 GPT-4-turbo 提高了5倍。

GPT-4o 能力探索

  • 实时的视觉叙事:GPT-4o 可以根据对话输入的文字实时输出视觉效果,并且保持一致性。
  • 海报设计:GPT-4o 可以通过对话,将多张图片照片融合为一张海报。
  • 连贯的角色设计:GPT-4o 可以通过对话生成角色,并且连贯生成各种动作场景。
  • 诗意的排版与迭代:GPT-4o 可以为诗歌进行排版,生成手写字体以及信纸插画等。
  • 纪念币设计:GPT-4o 可以对话输入图形要求和文字,生成纪念币等标志。
  • 照片转漫画:GPT-4o 可以对话生成各种真人照片,并且可以转换成漫画。
  • 文本到字体:GPT-4o 可以进行字母排列组合,并根据对话指令生成新的字体。
  • 3D物体合成:GPT-4o 可以通过对话指令生成3D文本、图像,并且可以合成3D动画。
  • 品牌植入:GPT-4o 可以通过对话的方式将品牌标志植入到背景图片中。
  • 会议记录总结:GPT-4o 可以上传语音音频文件,将音频转录为文字并进行总结。
  • 视频讲座总结:GPT-4o 可以上传视频文件,通过对话的方式进行视频摘要总结。
  • 变量绑定-立方体堆叠:GPT-4o 可以通过对话的方式生成制定的图形并且进行堆叠。
  • 具象诗:GPT-4o 可以通过对话指令将图片标志转换为具象诗,并且可以调整字体、色彩。

GPT-4o 模型评测

在传统基准测试中,GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力上创下了新的高水准。

✴️ 文本推理评估
GPT-4o 在 5 次 MMLU(常识问题)测试中创下了 87.2% 的新高。
GPT-4o

✴️ 音频 ASR 性能
GPT-4o 在所有语言中显著提高了 Whisper-v3 的语音识别性能,特别是对于资源较少的语言。

GPT-4o

✴️ 音频翻译性能
GPT -4o 在语音翻译方面树立了新的领先水平,并在 MLS 基准上超越了 Whisper-v3。

GPT-4o

✴️ M3Exam 零样本结果
M3Exam 基准既是多语言评估,也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时包括图形和图表。GPT-4o 在所有语言的这个基准上都比 GPT-4 更强。

GPT-4o

✴️ 视觉理解评估
GPT-4o 在视觉感知基准上实现了最先进的性能,各个指标都超过 GPT-4、Gemini Pro、Claude Opus等模型。

GPT-4o

GPT-4o 如何使用

GPT-4o 的文本和图像功能将于今天(5月13日)开始在 ChatGPT 中推出,OpenAI 将在免费套餐中提供 GPT-4o,并为 Plus 用户提供高达 5 倍的消息限制。未来几周内会在 ChatGPT Plus 中推出带有 GPT-4o 的新版语音模式。

开发人员现在还可以在 API 中以文本和视觉模型的形式访问 GPT-4o。与 GPT-4 Turbo 相比,GPT-4o 的速度提高了 2 倍,价格降低了一半,使用限额提高了 5 倍。OpenAI 计划在未来几周内向 API 中的一小部分可信赖合作伙伴推出对 GPT-4o 的新音频和视频功能的支持。

数据统计

类似工具

暂无评论

暂无评论...