ChatGPT重磅更新!可以通过图片和语音命令交互
作者:百科 来源:焦点 浏览: 【大中小】 发布时间:2023-09-27 17:15:11 评论数:
·OpenAI在其官网宣布,磅更目前正在推出ChatGPT的通过图片新版本,除了通过常见的和语互文本框交互外,现在它正在学会以新的音命方式理解人类的问题,比如通过大声说话或者上传一张图片 。令交
·随着越来越多的磅更人使用语音控制和图像搜索,并且ChatGPT越来越接近成为一个真正多模式 、通过图片有用的和语互虚拟助手,维持住安全护栏会变得越来越困难。音命
OpenAI在其官网宣布 ,ChatGPT现在可以“看” 、磅更“听”和“说”了。通过图片
自诞生以来,和语互ChatGPT的音命大部分更新主要在于,这个基于AI的令交机器人可以做什么、可以回答哪些问题、可以访问哪些信息,以及如何改进其基础模型等方面。这一次 ,OpenAI正在调整使用ChatGPT的方式。
北京时间9月25日晚 ,OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题 ,比如通过大声说话或者上传图片 。
具体而言,在语音方面:第一 ,允许用户进行语音对话,提供更直观的交互方式;第二,支持在iOS和Android移动应用上使用;第三,提供5种不同的语音选择;第四,通过新型文本转语音模型和语音识别系统实现 。
这应该感觉就像与苹果的Siri交谈一样,只是OpenAI希望,通过改进基础技术使其说出更好的答案 。目前,大多数虚拟助手 ,如亚马逊的Alexa,都在以大语言模型(LLM)为基础进行改进 。
据OpenAI介绍 ,新的语音功能由一个新的文本到语音模型提供支持,该模型能够从文本和几秒钟的语音样本生成“类似人类的音频”。OpenAI似乎还认为该模型的潜力不止于此,其正在与流媒体音乐服务平台Spotify合作,将播客翻译成其他语言,同时保持播音者的声音。合成语音有许多有趣的用途 ,而OpenAI可能会成为该行业的重要组成部分 。
然而,只需几秒钟的音频就能构建出功能强大的合成音色 ,这也为各种问题性用例敞开了大门。“这些功能还带来了新的风险 ,比如恶意行为者冒充公众人物或实施欺诈的可能性”,OpenAI在其宣布新功能的博文中写道 。OpenAI表示 ,出于这个原因,该模型不会广泛被使用 ,而更多受到特定用例和合作伙伴的限制。
在图像方面 ,第一,允许用户上传图像与ChatGPT进行交互;第二 ,支持多张图像;第三 ,提供移动应用上的绘图工具;第四,使用多模态GPT模型(Generative Pre-Trained Transformer,生成式预训练Transformer模型)理解图像;第五 ,在接下来的两周内首先面向Plus(付费订阅用户)和企业用户推出;第六 ,语音和图像功能的推出采取渐进策略 ,以确保安全性;第七,要注意模型局限性,避免高风险场景下对其依赖。
图像搜索有点类似于Google Lens的功能,用户拍摄自己感兴趣的任何东西的照片,ChatGPT去尝试了解用户在询问什么,并做出相应的回应。用户还可以使用应用程序的绘图工具帮助明晰自己的诉求,或配合图像进行说话或写入问题。
这是ChatGPT希望实现的一个互动特性:与其进行一次搜索得到错误答案,然后再重新进行一次搜索,不如在进行的过程中提示AI机器人完善答案 。
不过,显然图像搜索也有其潜在问题。比如,如果用户询问的是关于一个人的情况,ChatGPT该如何反应 ?OpenAI表示,他们故意限制了ChatGPT“分析和直接陈述关于人的能力”,这既是为了准确性,也是为了隐私原因。这意味着对于AI的一个极具科幻色彩的想象——看着某人然后问AI“那是谁”,并不会很快实现 。
在ChatGPT首次推出将近一年后 ,OpenAI似乎仍在寻找 ,如何为其AI机器人增加更多功能和能力而不会产生新的问题和缺点。OpenAI也试图通过有意限制其新模型的功能 ,来维持“更进一步”和“降低风险”这两者之间的平衡。但这种方法可能不会永远奏效。随着越来越多的人使用语音控制和图像搜索 ,并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手,维持住这个护栏会变得越来越困难。