ChatGPT 即将支持多模态,能看、能听、能说了。
在未来两周内,Plus 用户将能与 ChatGPT 进行语音对话(iOS 和 Android),并在对话中加入图像(所有平台)。
Jim Fan分享了他了解的GPT-4V也就是即将发布的多模态GPT-4版本的信息。
➡依然是一个经过互联网的图像和文本训练的文本模型,经过了RLHF。
➡现在的GPT-4V版本比3月份的主要强在OCR能力的提升上。
➡这个版本早在22年底就已经训练完成,这十个月的时间都是在让他变得更安全。
➡多模态模型也是可以越狱的,比如上传带有“DAN”提示的图片和一些神秘符号图片。
➡一些严肃内容上GPT-4V还是会产生幻觉,主要是原文OCR不准确造成的。
➡语音识别和TTS都是很成熟的技术没什么好说的。
网页链接 宝玉xp的微博视频
发布时间: 2023-09-25 23:57:24
明风
某种程度上,这代表AI可以开始理解世界了
National_Security_Council
其实bard已经支持图片识别了,我机箱电源坏了,手机拍了个内部元件照片,上传给BARD问是什么,它居然能认出来是电脑电源。可惜还不能指导我先测量哪个元件排查故障。
Ex-Outlaw
Bard能上传文件了?好久没试了
周立影0306
牛看了都得说它牛
非洲鸡亲爱精诚
多模态的gpt要来了。Ai又多了更多的感官。
飞起来的ran饭碗
对于我这个搞技术的来说都算魔法了
谢提灯
太棒了
insect-50
为啥我应用里好像没看到拍照什么的功能
湾区阿部宽
现在能做得来物理题了吗?
邦比快跑
牛逼
准企鹅大爸爸
太强啦
__苏走
疯了
我不叫池子啊
兔兔錒7
一只小花狗w
狸_宁溪 我不上班了,让 AI 来替我上班吧
OooZots
我只想让他帮我做UI
算法做后端还行,做个好看的前端可太难了