HR交流社群二维码 加入HR交流社群,
50万HR人在这里

GPT-4o炸裂登场,干翻所有语音助手!

来源:笔记侠 阅读量:294 时间:2024-05-16

  笔记君说:

  5月14日凌晨,OpenAI推出了新款人工智能模型GPT-4o。这一次,它变得更像人了,不仅能用饱含情绪的声音和人聊天,还能看、能听。

  我们可以以文本、音频、图像任意组合输入,得到ChatGPT实时文本、音频、图像的任意组合输出。

  并且,在交流过程中,ChatGPT不再等待若干秒才响应,而是实时回复,还能被随时打断。

  《钢铁侠》里的人工智能助手贾维斯,似乎要成真。

  那么,GPT-4o会带来什么样的产业变革?对于普通人来说,它又会为我们带来哪些挑战和机遇?

  一、GPT-4o的最大亮点:更通人性

  这次GPT-4o最让人震撼的是,它更通人性了。

  这主要体现在两个方面,其一,GPT-4o 在多模态上能够融会贯通,反应的速度也有了很大提升,其交互的方式更加接近人类;其二,在 GPT-4o 驱动下的机器人明显更为活泼,也更愿意展现出人类的情绪。

  1.AI更像人了

  一年前,OpenAi发布了多模态GPT-4。我们可以给它提各种需求,发图片让它帮忙分析,也可以发文件、语音聊天。但是文本、图像、语音之间是有“壁”的。

  比如,你想让ChatGPT帮忙解一道数学题,就只能截图或者复制题目,发给ChatGPT。如果想听ChatGPT语音讲解,得先在文本框发完之后,再切到语音。

  而通过GPT-4o,我们可以直接使用桌面应用,将ChatGPT打开放在一边,和它聊着天的同时,用“拍摄”功能给它看你电脑桌面的内容,它就可以在对话中为你答疑解惑。

  在一则演示中,用户将ChatGPT桌面应用和做题界面同时打开。ChatGPT不直接给出答案,而是以问题引导的方式,有问有答地一步步带用户解了一道几何题。


  甚至,我们还可以打开摄像头,让ChatGPT“看”着纸面指导解题。


  在模型“GPT-4o”的加持下,ChatGPT还能与用户视频通话:用户打开摄像头,让GPT-4o“看”到当下,并进行互动。

  用前置镜头自拍,ChatGPT不仅能识别用户的情绪,如“看起来很开心,甚至可以说是兴奋的”,还能从用户背后的画面判断其身处的环境,如“看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的”。

  当有另一个人进入镜头并且做鬼脸的时候,ChatGPT也准确指出了这一“不太寻常”的情况,并加以描述。

  用后置镜头,GPT-4o还可以和用户共享视角。例如,在语言学习的过程中,打开摄像头让ChatGPT用某种语言说出物品的名称。

  总而言之,GPT-4o驱动下的ChatGPT,不再仅仅是一个什么都会的应用,而是真正进化成了一个“AI助手”。

  2.AI也有了情绪

  自ChatGPT 上线以来,在相当长的一段时间内,这款聊天机器人都给人留下一种颇为严肃、不苟言笑的感觉。

  这极有可能是 OpenAI 出于避免麻烦的考虑而特意如此安排的,ChatGPT 不但回答问题时一本正经、规规矩矩,并且只要有契机就会向用户着重强调“我只是个机器人,我没有感情”。

  若用户希望 ChatGPT 能更加“放松”些,就需要给出明确的指令。

  然而,由 GPT-4o 驱动的ChatGPT 则明显有了不同。在没有提前给予指令的情况下,ChatGPT 不再刻意去避免表现得像人类,而是相反。

  比如,研发负责人Mark Chen在台上向ChatGPT求助:“我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?”


  ChatGPT非常体贴地表示:“你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!”

  Mark疯狂地大喘气几次,问ChatGPT能给自己什么建议。

  ChatGPT惊讶地说道:“放松啊Mark,慢点呼吸,你可不是个吸尘器!”

  在这个过程中,ChatGPT和Mark的互动几乎无延迟,随时接梗。也就是说,在 GPT-4o驱动下的 ChatGPT,已不再是一个单纯追求性能的AI工具,而是开始主动给予“情绪价值”。

  除此之外,它还能够理解人类在对话中适时打断的习惯,会及时停下来听你说话,并给出相应的回复。

  比如,Mark表示自己要再试一遍深呼吸,此时ChatGPT也恰到好处地插进来接话说“慢慢呼气”。

  整个过程,自然连贯得仿佛它是个坐在你对面的人类,完全没有AI的机械感和僵硬感!

  其实,在ChatGPT走严肃路线的前两年里,不少AI机器人以更活泼、更“通人性”的姿态出现,并俘获了不少用户的心。

  比如,Inflection.AI曾推出的机器人Pi,主打的就是“陪伴”,不到一年的时间里就做到百万日活用户。埃隆·马斯克(Elon Musk)的人工智能公司xAI的大模型Grok,则因其毒舌一经上线就吸引不少关注。

  以及上一代的AI聊天机器人Siri、天猫精灵、小爱同学等,都有一个俏皮的“人设”

  但后来,因技术有限,这些AI工具都被用户称为“人工智障”,弃而远之。

  在2024年,人们曾经对Siri们抱有的期待——一个既能当得力助手帮忙做事,又能当赛博玩具聊天嬉笑的AI——终于在GPT-4o身上有了着落。

  二、GPT-4o,或将改变3大领域

  1.实时视觉助手

  在模型“GPT-4o”的加持下,ChatGPT有了视觉能力,你可以直接和GPT4o进行讨论,它能实时理解你看到的东西。


  官方发布了一个演示视频,ChatGPT能帮助视障人士“看”世界,在演示视频中:

  视障人士问GPT-4o:“湖里有什么?”

  GPT-4o回答:“鸭子们正轻轻滑过水面,它们划水相当轻松,并不匆忙,有时会将头伸入水下,可能在寻找食物。”

  视障人士又问GPT-4o:“我想知道什么时候有一辆亮着橙色灯的出租车过来,我想让它载我回家。”

  GPT-4o回答:“我刚刚发现了一辆,它在路的左侧朝你驶来,准备朝它挥手”。

  2.辅助学习

  在发布会中,一位研发负责人Barret手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演“在线导师”的角色帮助自己解题,而且只能给提示,不能直接说答案。

  接到任务的ChatGPT,甚至开心大叫:“Oops,我好兴奋啊!”

  Barret在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。随后,在Barret的要求下,它一步一步说出了解题步骤。

  最厉害的是,随着小哥在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。

  这简直是学渣和学渣家长的福音,不用再为辅导孩子作业感到崩溃头疼。

  3.虚拟陪伴人

  GPT-4o 不仅能够根据场景生成多种音调,还带有类人的情绪和情感。同时,GPT-4o的响应速度也变快了,平均延迟仅为 320 毫秒,接近于人类对话的反应时间。

  这样的进步,使得GPT-4o的应用场景更广,比如,当一个哄睡师,给任性的人类讲睡前故事。

  在演示中,ChatGPT没讲几秒,就被人类粗暴地打断了:多点情绪,故事里来点戏剧性行不?

  ChatGPT表示可以,用更起伏的声调、更夸张的语气开始讲起了故事。

  结果没几秒,它又被再次打断:不行,再多点情感,给我最大程度的表达。

  接下来,我们听到一个仿佛在舞台上表演莎剧的ChatGPT,语气夸张到仿佛是个戏剧演员。

  随后,它又多次被打断,并且耐心地按照人类的要求,依次变成了机器人声和唱歌模式。

  ChatGPT听到要求自己唱歌时,甚至叹了口气,然后开始亮起了优美的歌喉。

  如今,它已不再是工具,更像是你在生活中的好朋友、人生导师,甚至可以是一个虚拟男女朋友。

  三、面对AI浪潮,别怕,拥抱它

  看到这,你或许会想:

  GPT-4o这么强,AI的迭代速度这么快,自己要被取代了怎么办?

  面对AI浪潮,一味地逃避或抵抗,改变不了发展的事实。我们要主动适应它,拥抱它,在其中找到我们的机会。

  1.发挥人类的协同优势

  如今的人工智能,并非通用智能。人类最大的优势,就是通过系统协调它们。

  举个例子:

  英国在非洲修铁路时,他们要实现智能化调度和物流跟踪。但非洲许多地方的人没有文化,他们怎么办?

  在许多关键位置设立岗位,岗位的人无需文化知识,只需在火车过来的时候拿起电话说火车过去,就这样对整个系统进行监测。

  这是一个很典型的例子,员工都是新手,但系统很优秀,所以能运转。

  现在的人工智能已经是中等水平的员工,理论上讲,它可以做很多事情。


  人类的优势在于我们的复杂协同能力。每个人都无法掌握登月所需的所有知识,但合在一起就能登月,这就是复杂协同能力的力量。

  2.学会指挥人工智能工作

  至今,人工智能并未实现社会化,因此并未形成人工智能社会。然而,未来的发展肯定是向社会化方向进行的。

  许多人质疑,人工智能是否会像电影《终结者》中的天网一样,毁灭人类?实际上,天网只是一个数据中心,而且一个超级智能体肯定不会毁灭人类,因为它肯定不如人聪明。

  人的核心也不是超级智能,而是所有人在一起形成的社会化智能群体,文化作为智能的蓄水池,理性能帮助我们把智能东西总结成可交流的语言,沉淀到文化里。

  因为有了文化,人类社会才特别强大。

  有了人工智能,只会让人类智能进步速度继续加快,这意味着我们将有大量的服务机会产生,我们称之为服务规模化。

  在过去,烹饪、教育、算账等事情都需要自己去做,现在,这些服务也可以交给别人或专家来做。

  工业革命用机器让我们解放了很多,但在这一轮的智能革命中,我们可以用人工智能形成专家级服务,让我们的大脑有时间从事有创造力的工作。


  而我们最重要的能力或价值,就是学会与AI协作,带动更多的机器工作,我们称之为拥有更高的机器智商。

  未来的成功者是机器智商高的人类。我们要当领导人工智能的将军,好好使用这些中等水平的人工智能同事。

  四、山姆・奥特曼发文:GPT-4o将免费开放

  在发布结束后,OpenAI CEO山姆・奥特曼久违地发表了一篇博客文章,介绍了推动GPT-4o工作时的心路历程:

  在我们今天的发布中,我想强调两件事。

  首先,我们使命的一个关键部分是将强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好的模型,没有广告或类似的东西。

  当我们创立 OpenAI 时,我们的最初构想是:我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化,看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,我们所有人都会从中受益。

  当然,我们是一家企业,会发明很多收费的东西,这将帮助我们向数十亿人提供免费、出色的人工智能服务(希望如此)。

  其次,新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样,我仍然有点惊讶于它竟然是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。

  最初的ChatGPT暗示了语言界面的可能性,而这个新事物(GPT-4o 版本)给人的感觉有本质上的不同 —— 它快速、智能、有趣、自然且能给人带来帮助。

  对我来说,与电脑交互从来都不是很自然的事情,事实如此。

  而当我们添加(可选)个性化、访问个人信息、让 AI 代替人采取行动等等能力时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。

  最后,非常感谢团队为实现这一目标付出了巨大的努力!

  *文章为作者独立观点,不代表笔记侠立场。

壹人事目前可提供企业社保代缴社保账户托管电子工资条薪资代发节日福利员工花名册智能入职员工商保积分福利员工学习移动考勤等一站式人力资源服务。咨询壹人事“在线客服”或致电400-189-1900了解更多,也可以点击官网顶部【注册】,体验壹人事的各项产品。

产品与服务 产品与服务 更多 >
热门HR资料下载

热门HR资料下载

热门总榜

热门总榜

换一换
关闭