不是GPT-5,而是GPT-4o。
北京时间5月14日,研发ChatGPT的OpenAI公司,推出了具备“听、看、说”能力的GPT-4o。
OpenAI网站称,GPT-4o的“o”代表“omni”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。
该公司首席执行官山姆·奥特曼此前已预告,最新发布的产品“不是GPT-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西”。
据介绍,GPT-4o可以实时对音频、视觉和文本进行推理,接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。
OpenAI称,GPT-4o可以在短至232毫秒的时间内对音频输入做出反应,平均反应时间为320毫秒,这与人类在对话中的反应时间相近。此外,它在英语和代码文本方面的性能与GPT-4 Turbo相当,在非英语语言文本方面也有显著提高。同时在API方面,速度更快,成本也降低了50%。
现场,OpenAI展示了GPT-4o的多个应用场景。
例如,在一个演示中,OpenAI前沿研究负责人马克·陈通过手机与ChatGPT进行对话。Chen和ChatGPT说,他正在进行演示有些紧张,于是ChatGPT就“像朋友一样”,对他进行了安慰。同时,ChatGPT还能从Chen急促的喘气声中,听出他的紧张,然后对他说“慢一点。Mark,你不是吸尘器。吸气,然后数到四。”
在另一个演示中,OpenAI后训练团队负责人巴雷特·佐夫把自己的脸对着镜头,让GPT-4o看看自己的情绪如何。在演示的过程中,Zoph先打开了手机的后置摄像头,拍到了木质桌面,于是ChatGPT说,“我看到的好像是木质表面。”而让ChatGPT再试一次后,ChatGPT对Zoph说,“你看起来很开心,笑容灿烂,也许还有一丝兴奋。”
有网友表示,根据目前展示的视频来看,GPT-4o在语音交互体验上提升了不少。有网友认为,GPT-4o对算力的需求更大了。也有网友提出,既然GPT-4o具备了“视觉”,它是否可以代替盲人看世界。
OpenAI称,通过GPT-4o,公司跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有的输入和输出都由同一个神经网络处理。由于GPT-4o是OpenAI第一个结合了所有这些模式的模型,因此公司在探索该模型的功能及其局限性方面仍处于起步阶段。
对此,山姆·奥特曼在社交媒体表示,最初的ChatGPT展示了语言界面的雏形,而新的ChatGPT则给人截然不同的感觉。它快速、智能、有趣、自然,而且“乐于助人”。“随着我们增加个性化功能、访问信息的功能、代表你采取行动的功能等,我真的看到了一个令人兴奋的未来,我们可以用电脑做比以往更多的事情。”(完)
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
随着生活压力的不断增加,睡眠质量的好坏会直接影响我们第二天的神经状态。如果我们夜里常常辗转反侧、难以入眠...
相较于成人肿瘤药市场和研发的如火如荼,儿童肿瘤药市场显得冷清。然而,儿童肿瘤治疗领域存在更为迫切的临床需...
坐着痛、站着痛、走路痛,随时随地都在痛痛痛……现在的上班族已经成为了腰酸背痛的高发群体,上完一天班下来,...
近日,方舟云康控股有限公司向港交所递交招股书。在此之前,公司曾于2022年11月21日向港交所递交招股书...
后台读者来信:你好,我今年27岁,结婚快8年了,有两个小孩,做过2次流产手术,上个月大姨妈,来了已经有半...
你可能不相信,有人生了69个孩子。俄罗斯有对夫妇,丈夫叫瓦西尔耶维,妻子叫瓦莲京娜。自瓦莲京娜15岁嫁于...