智慧音箱個性化 哆啦A夢跟我聊天

編按:扮演第三次人工智慧熱潮領頭羊角色的深度學習,正以銳不可擋之姿進化。豬排丼盛裝方式的判定、文章的校閱、繪製虛擬偶像的圖像、跟專業人士一樣的主播、模仿卡通人物語音的智慧音箱……許多企業都在研究與應用「深度學習」。

慧音箱被視為繼「智慧型手機之後備受矚目的裝置」,LINE推出「LINE Clova」系列投入市場,與亞馬遜、Google等世界級企業競爭。為了打造出差異性,LINE特別投注心力於「個性化」。而如何實現,關鍵在於運用深度學習。


僅是寫下「我是哆啦A夢」,相信很多人腦海中立刻浮現很特殊的語調。不限於哆啦A夢,說話方式其實某種程度上代表一個人,可能成為討人喜歡的因素。


LINE希望Clova系列不僅是「方便的助理」,更希望這個裝置讓使用者覺得討喜,因此致力推動「個性化」。除了原有的官方吉祥物之外,LINE還推出搭配哆啦A夢、小小兵等廣受喜愛的動畫人物版本智慧音箱。


將出現以孫子聲音發聲的智慧音箱?


二○一八年六月,LINE在公司內部舉辦的活動中,發表了智慧音箱Clova未來的策略。以董事舛田淳的語音資料打造的「舛田Clova」,當場以流暢的語音合成發表談話,介紹以語音作為「個性化」核心技術的「DNN-TTS」。DNN-TTS是Deep Neural Network Text to Speech(深度神經網路文本轉語音)的縮寫,這種技術是運用深度學習來合成語音,使用低於原先十分之一,也就是約四小時的語音資料,來合成自然的語音。


以往的語音合成是從輸入的文字資料擷取出語言特徵量,然後計算語音特徵量。從幾十小時到幾百小時的錄音資料中,找出與語音特徵量一致的「聲音」,連接起來構成發話。想以這種手法合成自然的發話,需要盡可能多的語音資料。如果想從日常的對話中網羅所有能使用的「聲音」成分,必須有幾十小時到幾百小時的語音資料,當然收錄的分量花費更多時間。換句話說,若啟用配音員或名人之類的代言人,勢必花錢又耗時。


LINE推動研發的DNN-TTS,以四小時左右的短收錄時間來完成語音合成作業。用錄音資料來進行深度學習,捕捉音質和說話方式的特徵,因應輸入的文字就能以該人物的風格來發話。未來還可能配合個別需求,例如以使用者孫子語音發聲的智慧音箱。


然而,「用深度學習來進行語音合成的技術才剛開始,目前還有問題。」(Search & Clova中心Clova開發室VA開發小組立花綱治)因此,配合以往的方法互補,才能達到完成度更高的語音合成效果。至於具體上哪些部分使用深度學習,以及兩者如何配合,並未對外公開,但可以觀察到在不久的未來,深度學習將逐漸成為主流。此外,目前市售的Clova系列使用傳統方式來合成語音,但今後預定在服務和產品上採用DNN-TTS。


這些語音合成技術以母公司韓國Naver一直以來推動的研究開發為基礎,目前持續共同研發。在語音合成技術的研發上,最重要的是語音資料,尤其在深度學習出現之後更顯重要。深度學習的演算法本身並不是非常複雜,目前又有各式各樣程式庫和雲端服務,已經逐漸成為通用技術。能夠形成差異的,就是大量的資料。


LINE掌握配音員和播報員數百小時的語音資料,這些資料對研發DNN-TTS不可或缺。在這類語音資料的收集上,並不是任何人來說話都行,為了讓每個人聽來都覺得是很自然的對話,必須發音、語調正確,並且在沒有雜音的安靜環境錄音。為此,LINE研發Clova之際先委託配音員和播報員這些「聲音專家」來收錄。以這些投資作為基礎,建立模型,之後再稍微新增學習,就能因應形形色色的人不同說話方式。

深度學習的商戰必修課


(本文摘自日經xTREND, 日本深度學習協會(監修)著《深度學習的商戰必修課》,臉譜出版提供)


延伸閱讀

聲控經濟 科技巨頭之戰

李開復給青年的人生建言

起床後的黃金1小時

UNIQLO限時降價的真相

你可能還喜歡