OpenAI 昨天發表了最新的 Realtime API,可以讓企業打造出與 chatGPT 的進階語音模式(Advanced Voice Mode)同等品質的服務。
如果你還沒用過進階voice mode,只要是付費版的 chatGPT 就可以直接使用了,很驚艷,一定要體驗看看。
這代表著更快速、更自然的語音交互方式將會變得更普及。
語音助理的真正崛起
我大概六七年前有開發過語音助理,但體驗其實都不會很好。 主因有兩個:
- 一個是 AI 的理解能力(這部分在 LLM 出來之後有大幅改進),
- 另一個就是延遲的問題
語音助理通常需要經過以下三個步驟:
- 使用者語音轉為文字(Speech-to-Text, STT)
- 用 AI 處理文字並生成回覆
- 將文字回覆轉為語音,並在設備上播放(Text-to-Speech, TTS)
延遲會導致使用體驗變得很差,也就無法真的普及。而隨著開發 Realtime API,我覺得語音助理將出現新的曙光。(請問 google 小姐您什麼時候要升級您的大腦)
企業將可實現即時的語音交互,讓純語音介面變得可能。
至少會過渡到語音為主、視覺為輔的交互模式,這將大大改變交互體驗。
(同樣的趨勢,可以參考 Meta 的 Orion)
另外,Realtime API 還支援 function call,讓語音助理不僅是回覆問題而已,還可以直接執行具體操作。 舉例來說,用戶可以通過語音訂餐或預訂房間,而語音助理則會自動處理並完成整個下訂流程。
成本
目前的語音處理成本為每分鐘語音輸入 $0.06 美元,輸出 $0.24 美元。
假設一通 3 分鐘的訂餐電話,其中 1 分鐘是客戶在講話,2 分鐘是 AI 回覆,那麼整個過程大約需要 0.5 美元的成本。
看起來不算便宜,但如果考慮到 AI 使用的成本每年都會大幅降低,這項技術的應用將很快變得容易負擔。
更何況 On Device 的 AI 發展也非常快速,AI 的處理將有一部分落到使用者的裝置上,對企業而言,這部分就不需要成本了。
實際應用場景
OpenAI 在介紹中提到了 Healthify, 一家印度的 Health tech 公司,已經在使用 Realtime API 來提供即時語音助理服務。
另一個案例就是 Speak 這個語言學習 app,透過 Realtime API 讓學生可以與 AI 進行角色扮演對話,提升語言學習效果。
(Speak 前幾個月完成了一輪 20M 美元的融資,其中投資者包括了 OpenAI)
Realtime API 的潛力將可能應用於多種場景,例如:
- 客服系統:透過語音自動處理客戶查詢與訂單,節省人力並提升效率。
- 內部流程自動化:企業可以使用語音助理簡化內部流程,例如會議安排、報告生成等,提升工作效率。
- 智慧商務:透過語音交互優化客戶購物體驗,從產品推薦到訂單處理,全程自動化。
簡單來說,原本需要真人語音服務的工作,處理效率都可以被大幅提升。 未來可能的交互模式的改變,值得企業經營者的我們花時間去思考。