OpenAI推出最新大模型，你的快乐悲伤它都能读懂

时间：2024-05-14 13:35:56 来源：投资界阅读量：15646

如果说黄仁勋是科技届的泰勒·斯威夫特，以亲和力和号召力获得了一众拥趸，那萨姆·奥尔特曼(Sam Altman)就有些像AI届的金·卡戴珊，永远擅长制造话题和抢风头。

最近两周，关于OpenAI将要推出搜索引擎的传言沸沸扬扬，所有的聚光灯都投射在奥尔特曼身上。正当大家期待值快达到顶峰时，这位硅谷的“当红炸子鸡”上周五突然跳出来，宣布OpenAI的春季产品发布会将在5月10日进行，正好是谷歌I/O开发者大会的前一天。他还在推特上承诺将带来一些“具有魔力”的更新，这样一套“营销组合拳”不仅为OpenAI造足了势头，也使得谷歌的“预热声”瞬间哑火。

那么在周一的发布会上，OpenAI究竟推出了什么“魔力”产品？

GPT-4o，OpenAI*能分析情绪的多模态大型语言模型

美西时间上午10点整，OpenAI首席技术官米拉·穆拉提进入了直播室，向观众介绍了这次春季大更新，其中包括桌面版本的ChatGPT，更新的用户界面，以及最重要的，新的旗舰模型—GPT-4o。

GPT-4o中的“o”代表“Omnimodal”，顾名思义，这是一个基于GPT-4之上的多模态大模型。

更值得关注的是，GPT-4o能够与用户进行多样化的语气交互，并精准捕捉到用户的情绪变化，这是一大进步。与之前版本仅通过“语音转文字”来识别语音输入不同，GPT-4o能够实时处理语音输入并响应用户的情感和语气。

在直播过程中，两位OpenAI的员工向大家展示了GPT-4o的更新细节。

1.感知用户情绪:前沿研究部门主管陈信翰让ChatGPT-4o聆听他的呼吸，聊天机器人侦测到他急促的呼吸，并幽默地建议他不要像吸尘器那样呼吸，要放慢速度。随后Mark深呼吸一次，GPT-4o则表示这才是正确的呼吸方式。

2.具备不同情绪的声音:陈信翰示范了ChatGPT-4o如何用不同的声音朗读AI生成的故事，包括超级戏剧化的朗诵、机器人音调，甚至唱歌。

3.实时视觉功能:研究员巴雷特·佐夫演示了如何让ChatGPT-4o通过手机摄像头实时解决数学问题，仿佛一位真实的数学老师在旁边指导每一个解题步骤。此外，ChatGPT-4o还能通过前置摄像头观察用户的面部表情，分析其情绪。

4.更即时的语音交互:ChatGPT-4o的响应时间得到缩短，与用户的交互更加即时。穆拉提和陈信翰利用新的聊天机器人展示了跨语言的实时翻译功能，能够在英语和意大利语之间无缝转换。

由此可见，这次更新的重点在于使聊天机器人不再那么机械冷漠，而是更加接近真实人类，能够理解并表达情绪。那么，GPT-4o是如何实现情感识别的呢？

1. *个模型将音频转换为文本；

2. 接着由GPT-3.5或GPT-4处理文本输入并输出文本；

3. 最后一个模型再将文本转换回音频。

这种处理方式常导致信息的大量丢失，例如无法捕捉到语调、识别多个说话者或背景噪音，也无法生成笑声、歌唱或其他情感表达。

GPT-4o的创新之处在于，它是OpenAI的*整合文本、视觉和音频多模态输入与输出的模型。通过端到端地训练一个统一的新模型，实现了所有输入和输出的处理都由同一个神经网络完成。

除了多模态输入输出，GPT-4o还具备更快的响应速度:能够在短至232毫秒内响应音频输入，平均响应时间为320毫秒，接近人类在对话中的响应时间。

GPT-4o在英语文本和代码上的性能与GPT-4 Turbo性能相当，在非英语文本上的性能显著提高，同时API的速度也更快，成本降低了50%。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色。

为了给大家一个更直观的感受，我们让ChatGPT-4生成了一个对比GPT-4o和GPT-4 Turbo的表格:

科技博主“All About AI”也在YouTube上展示了GPT-4o和GPT-4 Turbo的反应速度。?

通过同时向GPT-4o和GPT-4 Turbo(右)提出相同要求—“写三段关于19世纪在巴黎生活的内容”—我们可以观察到当GPT-4o已经完成处理并做出回应时，GPT-4 Turbo仍在进行输出处理。

GPT-4o在5216毫秒内处理了574个Token，约等于 110 Token/秒；GPT-4 Turbo在23442毫秒(23.442秒)内处理了474个Token，约等于20 Token/秒。前者的处理速度是后者的大约5.44倍。

发布会之后，一名OpenAI的研究员在自己的推文中证实，此前出现在测试网站上的神秘 GPT-2 聊天机器人确实就是GPT-4o。

“GPT-4o 是我们最新的前沿模型。我们已经在LMSys上测试了一个版本，也就是 im-also-a-good-gpt2-chatbot。” 威廉·费杜斯在自己的推特上介绍到，并且得到了奥尔特曼的转发。

“ELO分数最终可能受到提示难度的限制。我们发现在更难的提示集上 — 尤其是编程 — GPT-4o 的ELO比我们之前*的模型高出100分，”这位工程师补充道。

从下图可以看出，GPT-4o的表现一骑绝尘，远高于其他大模型。

穆拉提还在春季发布会上宣布，GPT-4o的文本和图像功能已开始向付费的ChatGPT Plus和Teams用户提供，并将很快推广至企业用户。同时，免费用户也将逐步获得使用权限，但需受到速率的限制。GPT-4o的语音功能预计将在未来几周内向用户开放。

目前，开发者已能通过API使用GPT-4o的文本和视觉模式。

此外，OpenAI还对ChatGPT的用户界面进行了优化，并且推出了适用于macOS系统的ChatGPT应用程序，已向付费用户开放。该公司表示今年晚些时候还将推出Windows版本的ChatGPT应用程序。

苹果将用GPT-4o取代自家语音助手Siri？

GPT-4o的推出带动了苹果股价小幅上涨。

上周五，彭博社报道称苹果正考虑在下一代iOS18系统中集成ChatGPT技术。如果与OpenAI达成协议，苹果可能会推出基于ChatGPT的聊天助理，作为公司计划在6月发布的一系列新人工智能功能之一。

多年来，苹果一直是包括沃伦·巴菲特在内的*投资者和投资机构青睐的科技股，并且是市值*大科技公司，但近年来涨幅却跑输其他大科技公司。

今年以来，苹果股价下跌了2%左右，而微软股价则上涨了10% 以上。得益于其在AI领域的*地位以及在云业务和办公套件中加入AI技术，微软已成为全球市值最高的公司，这一*地位看似还将持续一段时间。

纵观其他Magnificent 7公司的市值:谷歌凭借Gemini增长了20%，拥有开源大语言模型LLaMA的Meta上涨了32%，投资了明星AI初创企业Antropic的亚马逊增长了22%；被誉为AI行业“军火商”的芯片公司英伟达的市值更是增长了82%之多。

分析师们普遍认为，苹果的增速放缓主要归因于核心业务iPhone增长疲软，以及缺乏新的AI产品线。虽然Siri作为AI语音助手于2011年推出，但在准确性和实用性方面远逊于谷歌、亚马逊和OpenAI的竞品。

另一方面，手机业务的竞争对手们也已先于苹果在手机中引入新的AI功能。例如，三星电子最近推出的高端Galaxy手机采用了最新的生成式AI技术，提供实时语言翻译、总结笔记和编辑照片等功能。

面对来自四面八方的压力，苹果在今年二月宣布取消长达十年的造车计划，并将部分员工转至生成式AI团队，标志着AI将成为公司未来发展的重点。

那么GPT-4o是否达到了库克的标准？相信在6月份苹果举办的年度全球开发者大会，我们能够见分晓。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考

头条新闻

中国将蝉联全球票房市场冠军，美媒酸了

（观察者网讯）距离2021年结束没几天了，美国文娱杂志《Variety》网站日前预测，中国今年会蝉联全球单一票...
华为发布可测血压的手表HUAWEI WATCH D，售价2988元

图片来源：华为可穿戴设备在医疗健康领域有了新进展——12月23日，又一家厂商推出了支持测血压的智能手表，售价2...
vivo OriginOS Ocean体验：一次从视觉到功能的成熟进化

图片来源：vivo12月9日，vivo发布新系统OriginOSOcean。我在提前使用了一周之后，今天就来聊...
考古新发现！江西樟树国字山大墓或为越国王室贵族墓

在江西省樟树市，考古人员早前发现了一座东周时期的高等级墓藏，这座墓葬的发掘已经持续了四年多，出土2000多件套...
浙江绍兴：为了所有考生“应考尽考”

中国青年报客户端杭州12月25日电（中青报·中青网记者蒋雨彤通讯员陈思洁）今天上午，穿着隔离服的考生余柯滢，拿...