2025-04-15
Amazon Nova Sonic革新語音AI
實現貼近真人的自然對話與跨行業應用
文: Catabell Lee
文章索引: Biztech AWS

Amazon 早前宣布推出全新基礎模型 Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使 AI 應用程式中的語音對話更貼近真人交流。該模型透過 Amazon Bedrock 上的 API 提供,可簡化語音應用開發流程,例如客戶服務通話自動化,以及涵蓋旅遊、教育、醫療、娛樂等領域的跨行業 AI agents。

 

若要讓語音 AI 創造更多實際價值,必須能夠理解人類對話的微妙與複雜性。對話中,文字本身承載著意義,不過若缺乏聲音語境為它賦予深度,僅憑文字往往難以傳達完整資訊。如何表達與表達甚麼同樣重要,甚至更為關鍵。從過去直到現在,透過 AI 實現這一點仍是重大挑戰。

 

 

 

捕捉語氣、風格與節奏的語音系統

 

傳統語音應用開發須協調多個模型,例如將語音轉為文字的語音識別模型、理解並生成回覆的大語言模型(LLM)、將文字再轉為音檔的文本轉語音模型。這種分散的方法不僅增加了開發的複雜性,同時也難以保留自然對話中至關重要的聲學情境和細微差別,如語氣、語調韻律和說話風格等。

 

Nova Sonic 摒棄了使用多個不同模型的方式,將理解與生成功能統一於單一模型之中。這種整合使模型能根據語氣、風格等聲學情境,以及口語輸入調整所生成的語音響應,從而實現更自然的對話。Nova Sonic 甚至能理解人類對話的細微之處,包括說話者的自然停頓與猶豫,能在恰當時機做出回應,並能從容應對對話中的插話情況。

 

>> 按此聆聽基於 Amazon Nova Sonic 構建的旅遊 AI 代理示例

 

這段對話展示了客戶與虛擬旅遊助手討論夏威夷行程的場景。當客戶的語氣從興奮轉為擔憂費用時, AI 的語調隨之變得更具安撫性,並即時調取相關價格資訊。

 

該模型還會為用戶語音生成文字謄寫,讓開發者能夠利用這些文本來調用特定工具與 API,從而構建語音 AI 代理。比如在這個示例中,AI 旅遊代理可以透過獲取最新的航班資訊來協助機票預訂。這些功能,加上其超快的推理能力,使 Nova Sonic 支援的語音應用不僅更加自然,而且實用性更強。

 

>> 按此聆聽基於 Amazon Nova Sonic 構建的企業 AI 助手示例

 

此範例中,助手能夠提取報告,並以自然對話的方式傳遞準確資訊,同時主動提出相關的後續問題。這種流暢的對話模式支援多輪互動,無須說話者額外設定對話背景。

 

因對話中的語氣、風格和語調等聲學細節,賦予了文字更多的深度和意義,因此貼近真人的語音對話對傳遞完整資訊至關重要。能捕捉語境和語調,並做出更自然流暢回應的語音 AI 代理,在服務相關行業有莫大潛力,可為用戶創造實際商業價值。

 

 

 

發表評論