来源:华尔街见闻
开口说话、装上“眼睛”,多模态ChatGPT来了。
周一,OpenAI在官网宣布,将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能,上述功能允许用户进行语音对话或向ChatGPT展示图片。
语音功能方面,ChatGPT可以用语音来回答问题和命令,与苹果的Siri等C端个人助理形成直接竞争。此外,ChatGPT将有五种不同的语音供用户选择,同时支持语音音频生成文本、将播客语音翻译成其他语言等功能。
图像功能方面,用户提交图片并询问相关问题,ChatGPT可以根据图片回答或给出建议。据悉,语音功能将在iOS和Android平台推出,图像功能将登陆所有平台。
开口说话、5种不同语音
OpenAI升级了用户与ChatGPT的交互方式,用户不仅可以通过在文本框中输入句子,还可以通过大声说话来提示聊天机器人。
这一功能并不陌生,类似于与谷歌助手交谈,只是OpenAI希望,由于底层技术的改进,答案会更好。目前,大多数虚拟助手都在依靠大模型进行重建,OpenAI 只是走在了前面。
OpenAI 于今年 5 月发布了 ChatGPT 应用程序,并已经提供了语音转文本功能。增加语音回复功能可以让用户感觉在进行更人性化的对话。该公司希望这项新功能能鼓励用户随时随地使用其移动应用,并与谷歌的 Assistant、苹果的 Siri或