九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
語(yǔ)音合成TTS(Text

一、核心概念
1、TTS(Text-To-Speech,從文本到語(yǔ)音)

我們比較熟悉的ASR(Automatic Speech Recognition),是將聲音轉(zhuǎn)化為文字,可類比于人類的耳朵。

而TTS是將文字轉(zhuǎn)化為聲音(朗讀出來(lái)),類比于人類的嘴巴。

大家在siri等各種語(yǔ)音助手中聽到的聲音,都是由TTS來(lái)生成的,并不是真人在說(shuō)話。

TTS的實(shí)現(xiàn)方法,主要有2種:“拼接法”和“參數(shù)法”

2、拼接法

1)定義:從預(yù)先錄制的大量語(yǔ)音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等;為了追求合成語(yǔ)音的連貫性,也常常使用雙音子(從一個(gè)音素的中央到下一個(gè)音素的中央)作為單位。

2)優(yōu)點(diǎn):語(yǔ)音質(zhì)量較高

3)缺點(diǎn):數(shù)據(jù)庫(kù)要求太大。一般需要幾十個(gè)小時(shí)的成品預(yù)料。企業(yè)級(jí)商用的話,需要至少5萬(wàn)句,費(fèi)用成本在幾百萬(wàn)元。

3、參數(shù)法
1)定義:根據(jù)統(tǒng)計(jì)模型來(lái)產(chǎn)生每時(shí)每刻的語(yǔ)音參數(shù)(包括基頻、共振峰頻率等),然后把這些參數(shù)轉(zhuǎn)化為波形。

主要分為3個(gè)模塊:前端處理、建模和聲碼器。

前端做的事情,是把文本進(jìn)行解析,決定每個(gè)字的發(fā)音是什么,這句話用什么樣的語(yǔ)氣語(yǔ)調(diào),用什么樣的節(jié)奏來(lái)讀,哪些地方是需要強(qiáng)調(diào)的重點(diǎn),等等。常見的語(yǔ)氣相關(guān)的數(shù)據(jù)描述包含但不限于下面這些:韻律邊界,重音,邊界調(diào),甚至情感。 還有更多的信息甚至是難以客觀描述的,目前的算法只能暫且忽略。

注:拼接法和參數(shù)法,都有前端模塊,拼接和參數(shù)的區(qū)別主要是后端聲學(xué)建模方法的區(qū)別。

2)優(yōu)點(diǎn):數(shù)據(jù)庫(kù)要求相對(duì)較小一些。

如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。

通用TTS,一般至少需要5000句,6個(gè)小時(shí)(一般錄制800句話,需要1個(gè)小時(shí))。——從前期的準(zhǔn)備、找人、找錄音場(chǎng)地、錄制、數(shù)據(jù)篩選、標(biāo)注,最終成為“可以用的數(shù)據(jù)”,可能至少需要3個(gè)月。(訊飛在各方面比較成熟,用時(shí)會(huì)短很多)。

個(gè)性化TTS,大多數(shù)是用“參數(shù)”方法的。(adobe、微軟也有嘗試過(guò)拼接法,不過(guò)相對(duì)參數(shù)方法來(lái)說(shuō)不是太成熟,效果也并不是太通用)。

3)缺點(diǎn):質(zhì)量比拼接法差一些。因?yàn)槭苤朴诎l(fā)聲算法,有損失。

因?yàn)橹饕觞c(diǎn)和難點(diǎn)就是聲碼器。聲碼器的作用是復(fù)現(xiàn)聲音信號(hào),難在重現(xiàn)聲音細(xì)節(jié),并且讓人聽不出各種雜音、沉悶、機(jī)械感等等。目前常見的聲碼器都是對(duì)聲音信號(hào)本身作各種理論模型以及簡(jiǎn)化假設(shè),可以說(shuō)對(duì)細(xì)節(jié)的描述近似于忽略。

而DeepMind的wavenet,基本解決了聲碼器的問(wèn)題。因?yàn)樗麄冎苯訉?duì)語(yǔ)音樣本進(jìn)行預(yù)測(cè),不依賴任何發(fā)音理論模型。最后出來(lái)的音質(zhì)細(xì)節(jié)十分豐富,基本達(dá)到了與原始語(yǔ)音類似的音質(zhì)水準(zhǔn)(所謂質(zhì)量提高了50%,就是這里)。而且?guī)缀蹩梢詫?duì)任意聲音建模(這就太牛了)。目前wavenet的缺陷是計(jì)算量問(wèn)題,速度太慢。大概100倍實(shí)時(shí)的量級(jí),所以沒有辦法直接實(shí)用。

今年開始火起來(lái)的end-to-end的TTS建模方法,加上wavenent的聲碼器思想,才是未來(lái)TTS的發(fā)展方向。

4、TTS的評(píng)判標(biāo)準(zhǔn)

1)主觀測(cè)試

A)MOS(Mean Opinion Scores),專家級(jí)評(píng)測(cè)(主觀);1-5分,5分最好。

微軟小冰公開宣傳是4.3分,但有業(yè)內(nèi)朋友認(rèn)為,也不能據(jù)此就說(shuō)其“絕對(duì)”比科大訊飛好,因?yàn)槊看卧u(píng)審的專家人選都不一樣。說(shuō)白了,目前整個(gè)AI行業(yè)內(nèi),還是各家說(shuō)自己好的節(jié)奏。

B)ABX,普通用戶評(píng)測(cè)(主觀)。讓用戶來(lái)視聽兩個(gè)TTS系統(tǒng),進(jìn)行對(duì)比,看哪個(gè)好。

C)每次主觀測(cè)評(píng)應(yīng)該有區(qū)分。比如這次著重聽多音字,下次主要聽語(yǔ)氣詞等。

2)客觀測(cè)試

A)對(duì)合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進(jìn)行評(píng)估,一般是計(jì)算歐式距離等(RMSE,LSD)

B)對(duì)合成系統(tǒng)工程上的測(cè)試:實(shí)時(shí)率(合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng)),首包響應(yīng)時(shí)間(用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間)。

二、當(dāng)前技術(shù)邊界

1、通用TTS
1)在用戶預(yù)期不苛刻的場(chǎng)景(APP/硬件),能滿足商業(yè)化需求,比如語(yǔ)音助手/滴滴/高德/智能音箱/機(jī)器人);但如果用戶預(yù)期非常高的話,是很難滿足的,因?yàn)檫€是會(huì)有“機(jī)器感/機(jī)械感”,不能非常自然的模擬人聲。

2)行業(yè)各家公司的產(chǎn)品效果差不多,都基本能商用;當(dāng)然,訊飛會(huì)稍好一些。

2、個(gè)性化TTS

1)在用戶預(yù)期不苛刻的場(chǎng)景,能“基本”滿足商業(yè)化需求,但是效果沒通用TTS那么好。但如果用戶預(yù)期非常高的話,是滿足不了的。

2)目前行業(yè)內(nèi)能成熟商用的,主要還是科大訊飛。

3、情感TTS

1)目前業(yè)界的情感合成更多了,是因?yàn)閿?shù)據(jù)本身變多了、更有節(jié)奏了,超過(guò)了傳統(tǒng)的播音風(fēng)格,但并不是真正的“喜怒哀樂”等情感合成(想高興就高興的這種智能)。

2)在情感TTS的理論方面,學(xué)術(shù)界是有儲(chǔ)備的,但是,整個(gè)行業(yè)都沒怎么做(或者沒做好),是因?yàn)榍楦蠺TS很依賴“情感意圖識(shí)別”,“情感特征挖掘”、“情感數(shù)據(jù)”以及“情感聲學(xué)技術(shù)”等,是個(gè)系統(tǒng)工程。其中第1點(diǎn),即是和自然語(yǔ)言處理相關(guān),比如需要知道“什么時(shí)侯該高興或悲傷”。

三、瓶頸和機(jī)會(huì)

1、基礎(chǔ)技術(shù)

1)end-to-end的TTS建模方法,加上wavenent的聲碼器思想。(來(lái)源:https://www.zhihu.com/people/meng-meng-55-13/answers );

2)據(jù)報(bào)道,百度的Deep Voice團(tuán)隊(duì)(在美國(guó)硅谷的AI Lab),實(shí)時(shí)語(yǔ)音合成神經(jīng)網(wǎng)絡(luò)系統(tǒng)(Real-Time Neural Text-to-Speech for Production)比 WaveNet 要快 400 倍。

3)如何讓離線版效果達(dá)到在線版水平。很多客戶希望(奢望)有離線版本,并且效果和在線版本一樣好。。。

2、數(shù)據(jù)缺乏
一方面,特別是個(gè)性化TTS,需要數(shù)據(jù)量更大。比如默認(rèn)男孩聲音,要轉(zhuǎn)成女孩,就比較難。另一方面,數(shù)據(jù)的獲?。ㄖ谱鳎┏杀竞椭芷?,也是各家在初期的競(jìng)爭(zhēng)著力點(diǎn)。

3、人才匱乏:不僅沒法跟NLP、CV等熱門AI人才比,就算跟同樣不算熱門的ASR比,TTS的人才都還要少一些。

4、產(chǎn)品化難度:由于技術(shù)限制,現(xiàn)階段不可能有非常完美的TTS效果,所以

1)盡量選擇用戶預(yù)期不苛刻的場(chǎng)景,或者在產(chǎn)品體驗(yàn)設(shè)計(jì)時(shí),管理好用戶預(yù)期。(比如打車軟件,郭德綱/林志玲的聲音,差不多就行)

2)選擇“參數(shù)法”還是“拼接法”,和公司的技術(shù)儲(chǔ)備、成本、以及產(chǎn)品目標(biāo)相關(guān)。在垂直領(lǐng)域,現(xiàn)有的TTS技術(shù)(參數(shù)或者拼接)都可以針對(duì)產(chǎn)品做得很好?,F(xiàn)在行業(yè)還沒有太好的效果,很大原因是因?yàn)楫a(chǎn)品經(jīng)理還沒有深入介入,有很多細(xì)節(jié)的坑要踩~未來(lái)一定會(huì)有驚艷的產(chǎn)品出現(xiàn)。

3)體驗(yàn)細(xì)節(jié)設(shè)計(jì),和一般互聯(lián)網(wǎng)產(chǎn)品很不同,比如:

A)文案設(shè)計(jì),非常重要;因?yàn)樵谡Z(yǔ)音交互場(chǎng)景,不能太長(zhǎng),用戶沒耐心和時(shí)間聽完的。

B)可以加入背景音樂,掩蓋雜音等細(xì)節(jié)瑕疵。

C)特殊場(chǎng)景,還有有特別的需求,比如遠(yuǎn)場(chǎng)TTS,和戴耳機(jī)場(chǎng)景,還會(huì)區(qū)別。

D)中英文混合TTS。比如用戶想播首英語(yǔ)歌曲,困難在于:所有中文的發(fā)音當(dāng)中,中文和英文合拍念出來(lái)是很難的,為什么呢?因?yàn)橥浺舻娜?。錄中文是一批人,錄英文又是一批人。兩種語(yǔ)言結(jié)合起來(lái),再用機(jī)器學(xué)習(xí)學(xué)出來(lái),聲音就會(huì)變得非常怪。小雅音箱找到了一個(gè)能夠和中文發(fā)音很像的女孩子,錄了很多英語(yǔ)的音。

5、商業(yè)化壓力

1)如果要有足夠的市場(chǎng)競(jìng)爭(zhēng)力,至少需要12個(gè)月的時(shí)間,2~6人團(tuán)隊(duì),幾百萬(wàn)資金投入(1個(gè)GPU一年十萬(wàn),支持并發(fā)只有幾十個(gè))。并且,大公司的先發(fā)優(yōu)勢(shì)巨大,小公司必須切細(xì)分場(chǎng)景。

2)我個(gè)人認(rèn)為,個(gè)性化TTS、情感TTS會(huì)在各細(xì)分場(chǎng)景得到更大的應(yīng)用,比如知識(shí)付費(fèi)、明星IP、智能硬件、機(jī)器人等。

附:相關(guān)資料

1、文章
1)《目前,人工智能語(yǔ)音在說(shuō)中文時(shí)的語(yǔ)氣感覺上還比較機(jī)械,怎樣使人工智能語(yǔ)音的語(yǔ)氣更自然一些?》https://www.zhihu.com/question/50240209/answer/156842223

2)《如何評(píng)價(jià)谷歌下一代語(yǔ)音合成系統(tǒng)WaveNet?》https://www.zhihu.com/question/50509644/answer/167870206

3)《TTS(Text-To-Speech)的原理是什么?》https://www.zhihu.com/question/26815523

4)《百度Deep Voice作者與Bengio團(tuán)隊(duì)探討五大技術(shù)細(xì)節(jié),端到端的語(yǔ)音合成還有多遠(yuǎn)?》http://t.cn/RoUvHAg

2、產(chǎn)品或視頻

1)訊飛的2個(gè)APP:配音閣、訊飛快聽

2)百度飛槳

轉(zhuǎn): https://blog.csdn.net/weixin_44489823/article/details/90576928

https://blog.csdn.net/weixin_41809530/article/details/119910578

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
語(yǔ)音合成技術(shù)
百度發(fā)布全深度學(xué)習(xí)文本到語(yǔ)音轉(zhuǎn)化系統(tǒng) Deep Voice,比 WaveNet 快400倍
那段記憶中的聲音:?jiǎn)问皆u(píng)書再現(xiàn)江湖背后的AI技術(shù)
在自然語(yǔ)言處理領(lǐng)域,文本轉(zhuǎn)語(yǔ)音(TTS)技術(shù)有什么最新進(jìn)展?
DeepMind發(fā)布WaveNets語(yǔ)音合成系統(tǒng),稱世界最佳,直接提升50%!
學(xué)界 | 谷歌全端到端語(yǔ)音合成系統(tǒng)Tacotron:直接從字符合成語(yǔ)音
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服