Openai

OpenAI 昨天發表了最新的 Realtime API，可以讓企業打造出與 chatGPT 的進階語音模式（Advanced Voice Mode）同等品質的服務。如果你還沒用過進階voice mode，只要是付費版的 chatGPT 就可以直接使用了，很驚艷，一定要體驗看看。這次 release 出來的 Realtime API，可以讓我們輕鬆打造自己的語音助理系統。這代表著更快速、更自然的語音交互方式將會變得更普及。語音助理的真正崛起我大概六七年前有開發過語音助理，但體驗其實都不會很好。主因有兩個: 一個是 AI 的理解能力（這部分在 LLM 出來之後有大幅改進），另一個就是延遲的問題語音助理通常需要經過以下三個步驟：使用者語音轉為文字（Speech-to-Text, STT）用 AI 處理文字並生成回覆將文字回覆轉為語音，並在設備上播放（Text-to-Speech, TTS）延遲會導致使用體驗變得很差，也就無法真的普及。而隨著開發 Realtime API，我覺得語音助理將出現新的曙光。(請問 google 小姐您什麼時候要升級您的大腦) 企業將可實現即時的語音交互，讓純語音介面變得可能。至少會過渡到語音為主、視覺為輔的交互模式，這將大大改變交互體驗。 (同樣的趨勢，可以參考 Meta 的 Orion) 另外，Realtime API 還支援 function call，讓語音助理不僅是回覆問題而已，還可以直接執行具體操作。舉例來說，用戶可以通過語音訂餐或預訂房間，而語音助理則會自動處理並完成整個下訂流程。成本目前的語音處理成本為每分鐘語音輸入 $0.06 美元，輸出 $0.24 美元。假設一通 3 分鐘的訂餐電話，其中 1 分鐘是客戶在講話，2 分鐘是 AI 回覆，那麼整個過程大約需要 0.5 美元的成本。看起來不算便宜，但如果考慮到 AI 使用的成本每年都會大幅降低，這項技術的應用將很快變得容易負擔。更何況 On Device 的 AI 發展也非常快速，AI 的處理將有一部分落到使用者的裝置上，對企業而言，這部分就不需要成本了。...

Realtime API：釋放企業語音助理的潛力

跳出資訊焦慮，進入策略思維