Realtime API:釋放企業語音助理的潛力

OpenAI 昨天發表了最新的 Realtime API,可以讓企業打造出與 chatGPT 的進階語音模式(Advanced Voice Mode)同等品質的服務。 如果你還沒用過進階voice mode,只要是付費版的 chatGPT 就可以直接使用了,很驚艷,一定要體驗看看。 這次 release 出來的 Realtime API,可以讓我們輕鬆打造自己的語音助理系統。 這代表著更快速、更自然的語音交互方式將會變得更普及。 語音助理的真正崛起 我大概六七年前有開發過語音助理,但體驗其實都不會很好。 主因有兩個: 一個是 AI 的理解能力(這部分在 LLM 出來之後有大幅改進), 另一個就是延遲的問題 語音助理通常需要經過以下三個步驟: 使用者語音轉為文字(Speech-to-Text, STT) 用 AI 處理文字並生成回覆 將文字回覆轉為語音,並在設備上播放(Text-to-Speech, TTS) 延遲會導致使用體驗變得很差,也就無法真的普及。而隨著開發 Realtime API,我覺得語音助理將出現新的曙光。(請問 google 小姐您什麼時候要升級您的大腦) 企業將可實現即時的語音交互,讓純語音介面變得可能。 至少會過渡到語音為主、視覺為輔的交互模式,這將大大改變交互體驗。 (同樣的趨勢,可以參考 Meta 的 Orion) 另外,Realtime API 還支援 function call,讓語音助理不僅是回覆問題而已,還可以直接執行具體操作。 舉例來說,用戶可以通過語音訂餐或預訂房間,而語音助理則會自動處理並完成整個下訂流程。 成本 目前的語音處理成本為每分鐘語音輸入 $0.06 美元,輸出 $0.24 美元。 假設一通 3 分鐘的訂餐電話,其中 1 分鐘是客戶在講話,2 分鐘是 AI 回覆,那麼整個過程大約需要 0.5 美元的成本。 看起來不算便宜,但如果考慮到 AI 使用的成本每年都會大幅降低,這項技術的應用將很快變得容易負擔。 更何況 On Device 的 AI 發展也非常快速,AI 的處理將有一部分落到使用者的裝置上,對企業而言,這部分就不需要成本了。...

10月 2, 2024 · 1 min · 131 words · Ben