OpenAI 昨天發表了最新的 Realtime API,可以讓企業打造出與 chatGPT 的進階語音模式(Advanced Voice Mode)同等品質的服務。
如果你還沒用過進階voice mode,只要是付費版的 chatGPT 就可以直接使用了,很驚艷,一定要體驗看看。

這次 release 出來的 Realtime API,可以讓我們輕鬆打造自己的語音助理系統。
這代表著更快速、更自然的語音交互方式將會變得更普及。

語音助理的真正崛起

我大概六七年前有開發過語音助理,但體驗其實都不會很好。 主因有兩個:

  1. 一個是 AI 的理解能力(這部分在 LLM 出來之後有大幅改進),
  2. 另一個就是延遲的問題

語音助理通常需要經過以下三個步驟: 3-steps-of-voice-assitant

  1. 使用者語音轉為文字(Speech-to-Text, STT)
  2. 用 AI 處理文字並生成回覆
  3. 將文字回覆轉為語音,並在設備上播放(Text-to-Speech, TTS)

延遲會導致使用體驗變得很差,也就無法真的普及。而隨著開發 Realtime API,我覺得語音助理將出現新的曙光。(請問 google 小姐您什麼時候要升級您的大腦)
企業將可實現即時的語音交互,讓純語音介面變得可能。 至少會過渡到語音為主、視覺為輔的交互模式,這將大大改變交互體驗。 (同樣的趨勢,可以參考 Meta 的 Orion)

另外,Realtime API 還支援 function call,讓語音助理不僅是回覆問題而已,還可以直接執行具體操作。 舉例來說,用戶可以通過語音訂餐或預訂房間,而語音助理則會自動處理並完成整個下訂流程。

成本

目前的語音處理成本為每分鐘語音輸入 $0.06 美元,輸出 $0.24 美元
假設一通 3 分鐘的訂餐電話,其中 1 分鐘是客戶在講話,2 分鐘是 AI 回覆,那麼整個過程大約需要 0.5 美元的成本。 看起來不算便宜,但如果考慮到 AI 使用的成本每年都會大幅降低,這項技術的應用將很快變得容易負擔。 更何況 On Device 的 AI 發展也非常快速,AI 的處理將有一部分落到使用者的裝置上,對企業而言,這部分就不需要成本了。

實際應用場景

OpenAI 在介紹中提到了 Healthify, 一家印度的 Health tech 公司,已經在使用 Realtime API 來提供即時語音助理服務。
另一個案例就是 Speak 這個語言學習 app,透過 Realtime API 讓學生可以與 AI 進行角色扮演對話,提升語言學習效果。 (Speak 前幾個月完成了一輪 20M 美元的融資,其中投資者包括了 OpenAI) Speck uses Realtime API to power its role-play feature

Realtime API 的潛力將可能應用於多種場景,例如:

  • 客服系統:透過語音自動處理客戶查詢與訂單,節省人力並提升效率。
  • 內部流程自動化:企業可以使用語音助理簡化內部流程,例如會議安排、報告生成等,提升工作效率。
  • 智慧商務:透過語音交互優化客戶購物體驗,從產品推薦到訂單處理,全程自動化。

簡單來說,原本需要真人語音服務的工作,處理效率都可以被大幅提升。 未來可能的交互模式的改變,值得企業經營者的我們花時間去思考。

參考資料

  1. Introducing the Realtime API
  2. Realtime API Guide
  3. Case study of Healthify
  4. Speak Hits $500M Valuation, Expands Rapidly Across Markets