欧美激情伊人,久久不射网

帶你讀論文 | 端到端語(yǔ)音識(shí)別模型

520jefferson >《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

2020.12.10

本文將通過(guò)六篇論文，從建模方法、響應(yīng)時(shí)間優(yōu)化、數(shù)據(jù)增強(qiáng)等不同方面講解端到端語(yǔ)音模型的發(fā)展，并探討不同端到端語(yǔ)音識(shí)別模型的優(yōu)缺點(diǎn)。

Seq2Seq

參考論文：Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition. ICASSP 2016（William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals）

CTC

參考論文：Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. ICML 2006（AlexGraves, SantiagoFernández,FaustinoGomez）

這里 A 是一條合法的 x 和 y 的對(duì)應(yīng)路徑，a_t 代表 t 時(shí)刻 X 所對(duì)應(yīng)的輸出。

了解更多的推導(dǎo)細(xì)節(jié)： https://distill.pub/2017/ctc/

Transducer

參考論文：Sequence Transduction with Recurrent Neural Networks. arXiv 2012（Alex Graves）

數(shù)據(jù)增強(qiáng)

參考論文：SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. INTERSPEECH 2019（Daniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le）

延遲優(yōu)化

參考論文：Towards Fast and Accurate Streaming End-to-End ASR. ICCASP 2019（Bo Li, Shuo-yiin Chang, Tara N. Sainath, Ruoming Pang, Yanzhang He, Trevor Strohman, Yonghui Wu）

參考論文：On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition. InterSpeech 2020（Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu）

最后感謝作者-吳俁的分享

本文轉(zhuǎn)自-微軟研究院AI頭條

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

個(gè)人閱讀的Deep Learning方向的paper整理

學(xué)界 | 2010

口音與方言語(yǔ)音識(shí)別研究進(jìn)展

資源 | 如何開(kāi)啟深度學(xué)習(xí)之旅？這三大類125篇論文為你導(dǎo)航

【每周CV論文推薦】掌握殘差網(wǎng)絡(luò)必讀的10多篇文章

趨勢(shì)分析|清華大學(xué)AMiner大數(shù)據(jù)帶你進(jìn)入深度神經(jīng)網(wǎng)絡(luò)的未來(lái)

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区