ChatGPT 即将支持多模态,能看、能听、能说了。

在未来两周内,Plus 用户将能与 ChatGPT 进行语音对话(iOS 和 Android),并在对话中加入图像(所有平台)。

Jim Fan分享了他了解的GPT-4V也就是即将发布的多模态GPT-4版本的信息。

➡依然是一个经过互联网的图像和文本训练的文本模型,经过了RLHF。
➡现在的GPT-4V版本比3月份的主要强在OCR能力的提升上。
➡这个版本早在22年底就已经训练完成,这十个月的时间都是在让他变得更安全。
➡多模态模型也是可以越狱的,比如上传带有“DAN”提示的图片和一些神秘符号图片。
➡一些严肃内容上GPT-4V还是会产生幻觉,主要是原文OCR不准确造成的。
➡语音识别和TTS都是很成熟的技术没什么好说的。

网页链接 宝玉xp的微博视频

发布时间: 2023-09-25 23:57:24

热门评论

明风
明风

某种程度上,这代表AI可以开始理解世界了

National_Security_Council
National_Security_Council

其实bard已经支持图片识别了,我机箱电源坏了,手机拍了个内部元件照片,上传给BARD问是什么,它居然能认出来是电脑电源。可惜还不能指导我先测量哪个元件排查故障。

Ex-Outlaw
Ex-Outlaw

Bard能上传文件了?好久没试了

周立影0306
周立影0306

牛看了都得说它牛

非洲鸡亲爱精诚
非洲鸡亲爱精诚

多模态的gpt要来了。Ai又多了更多的感官。

飞起来的ran饭碗
飞起来的ran饭碗

对于我这个搞技术的来说都算魔法了

谢提灯
谢提灯

太棒了

insect-50
insect-50

为啥我应用里好像没看到拍照什么的功能

湾区阿部宽
湾区阿部宽

现在能做得来物理题了吗?

邦比快跑
邦比快跑

牛逼

准企鹅大爸爸
准企鹅大爸爸

太强啦

__苏走
__苏走

疯了

我不叫池子啊
我不叫池子啊

兔兔錒7

一只小花狗w
一只小花狗w

狸_宁溪 我不上班了,让 AI 来替我上班吧

OooZots
OooZots

我只想让他帮我做UI[允悲]算法做后端还行,做个好看的前端可太难了

今日热门