ChatGPT大升级！支持图片和语音输入，能看能听还能说

OpenAI宣布推出新版ChatGPT更新，增加了两项新功能：语音输入和图像输入。据OpenAI称，新功能将在未来两周内向ChatGPT Plus订阅使用者推出，其他人也将“很快”能够使用这些功能。

语音输入功能

语音输入功能方面，类似于手机上的语音助手，使用者只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文字，然后生成答案，再将答案转换为语音，播放给使用者。

若要开始使用语音，请前往行动应用程式上的“设定”→“新功能”，然后选择加入语音对话。然后，点击主画面右上角从五种不同的声音中选择喜欢的声音。

新的语音功能采用了新的文字转语音模型，能够仅从文字和几秒钟的样本语音中产生类似人类的音讯。这是OpenAI透过与专业配音员合作创作了每一个声音。也使用他们的开源语音辨识系统Whisper 可以将用户的口语转录为文字。

OpenAI 表示，这样的互动方式更加自然和便捷，而且由于LLM 的技术优势，答案的品质也会更高。OpenAI 还开发了一种新的文字转语音模型，可以根据几秒钟的样本语音，生成与之相似的人声。

这种模型还有更多的潜在用途。例如，OpenAI 正在与Spotify 合作，将Podcast内容翻译成其他语言，同时保留主持人的声音。不过，这种模型也存在一些风险，比如可能被恶意利用来冒充公众人物或进行诈骗。因此，OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。

图像输入功能

图像输入功能则类似于Google Lens，使用者可以拍摄自己感兴趣的事物，并上传到ChatGPT 中。ChatGPT 会尝试识别使用者想要询问的内容，并给出相应的回答。

ChatGPT大升级！支持图片和语音输入，能看能听还能说

使用者还可以用应用程式中的绘图工具来帮助表达自己的问题，或者配合语音或文字输入来进行交流。

ChatGPT 的优势在于它可以进行多轮对话，而不是一次性搜寻。如果使用者对答案不满意或想要更多资讯，可以继续向ChatGPT 提问，从而得到更准确和全面的答案。

当然，图像搜寻也有一些潜在问题。例如，在处理人物图片时，OpenAI 表示他们限制了ChatGPT 对人物进行分析和直接评价的能力，既为了保证精准性，也为了保护隐私，这意味着上传一个人的照片就能知道他/ 她是谁还无法实现。

自从2022 年初推出ChatGPT 以来，OpenAI 一直在努力为其机器人增加更多功能和能力，同时避免造成新的问题出现。通过这次更新，该公司试图在这条界线上寻找平衡点，通过有意识地限制其新模型能做什么来实现这一目标。但是这种方法并不是长久之计，随着越来越多的人使用语音控制和图像搜寻，以及ChatGPT 逐渐成为一个真正的多模态、有用的虚拟助手，要保持安全和合理的边界会变得越来越困难。

语音功能将在iOS和Android平台推出，图像功能将覆盖所有平台。

ChatGPT大升级！支持图片和语音输入，能看能听还能说

语音输入功能

图像输入功能

相关推荐

最新文章

1俄罗斯称正考虑与中国合作在月球...

2革命性人工智能可在症状出现前七...

3低血糖真的很可怕：严重会要命 ...

4NASA的SWOT卫星揭示加州天气问题...

5释放Hexaplex纳米脂质体的力量 ...

6研究人员在THz级别拍摄到了极速...