Google 母公司 Alphabet 旗下 Deep Mind 宣布研發新技術,能讓電腦合成語音和人類聲音的差距減少一半。
現今語音合成技術錄製人們實際說話的聲音,存放在數據庫,需要把字句打散重組,合成為完整句子,這種方式生成的語音聽起來生硬不自然,也缺乏感情。
Deep
Mind 的 Wave Net 技術,能夠分析原始聲波,使用類神經網絡 (Neural
Network) 加以修正。這種技術需要龐大的運算能力,每秒要 1.6 萬個樣本才能轉成數據,合成為語音。Wave Net 生成的中英文,聽起來比 Google 現行技術自然很多。
Wavenet 能夠模仿所有人的聲音,還能加入感情和語調,讓電腦生成語音聽來更豐富多變,該技術還能製造出類似鋼琴的琴聲,不過 Wave Net 需要極大的運算能力,可預見的未來或許還無法使用在真實世界,目前也未用於 Google 產品。
沒有留言:
張貼留言