從自然語言理解理解概念的提出,到后續(xù)計(jì)算語言學(xué)(computational linguistics, CL)和自然語言處理(natural language processing, NLP)相關(guān)術(shù)語的出現(xiàn),伴隨自動(dòng)語音識(shí)別(automatic speech recognition, ASR)和語音合成(text to speech synthesis, TTS)姊妹技術(shù)的同步發(fā)展,這一被統(tǒng)稱為人類語言技術(shù)(human language technology, HLT)的學(xué)科方向已經(jīng)走過了近70年的曲折路程。近年來,從技術(shù)應(yīng)用的角度,以機(jī)器翻譯、人機(jī)對(duì)話系統(tǒng)、語音識(shí)別和語音合成等為代表的應(yīng)用系統(tǒng)性能快速提升,在人類社會(huì)和生活中發(fā)揮了越來越大的作用。與此同時(shí),如何使相關(guān)技術(shù)表現(xiàn)出更加智慧和優(yōu)越的性能,始終是技術(shù)研發(fā)人員孜孜追求的目標(biāo);從科學(xué)探索的角度,人腦語言理解的神經(jīng)基礎(chǔ)和認(rèn)知機(jī)理是什么?大腦是如何存儲(chǔ)、理解和運(yùn)用復(fù)雜的語言結(jié)構(gòu)、語境和語義表達(dá),并實(shí)現(xiàn)不同語言之間語義、概念關(guān)系對(duì)應(yīng)的?太多的奧秘有待于揭示。
為此,綜合語言信息理解相關(guān)方向的基礎(chǔ)問題研究和應(yīng)用技術(shù)研發(fā),同時(shí)考慮文字和語音兩大本質(zhì)屬性的孿生關(guān)系,本報(bào)告提出了語言信息處理未來研究的7個(gè)重要問題:
1. 語義表示和語義計(jì)算模型
這里的語義(semantic)指的是語言所蘊(yùn)含的意義,是語言符號(hào)所對(duì)應(yīng)的現(xiàn)實(shí)世界中的事物所代表的概念的含義,以及這些含義之間的關(guān)系。在自然語言處理中,語義表示研究自然語言中詞匯、短語、句子和篇章的意義表示,是語義計(jì)算和推理的基礎(chǔ)。語義計(jì)算研究詞匯、短語、句子和篇章等各語言單元之間的語義關(guān)系。幾乎所有自然語言處理任務(wù),例如機(jī)器翻譯、自動(dòng)問答和人機(jī)對(duì)話等,都依賴于對(duì)輸入語言序列的語義表示和計(jì)算。
傳統(tǒng)的離散符號(hào)表示適合自然語言的符號(hào)邏輯推理,而近年來流行的分布式向量表示更加適合自然語言的計(jì)算機(jī)語義計(jì)算。目前來看,離散符號(hào)表示與分布式向量表示很難兼容。因此,如何兼顧語義計(jì)算和推理,設(shè)計(jì)高效魯棒的語義表示和計(jì)算模型是自然語言處理的未來挑戰(zhàn)。
首先,常用的分布式語義表示方法將詞匯、短語、句子和篇章無差別的表示為維度相同的向量,且各個(gè)維度的含義無法解釋,這種編碼方式無法捕捉細(xì)粒度的語義差別且與人腦語義表征理論相違背。因此,如何針對(duì)不同類型文本構(gòu)造不同形式的、可解釋性的編碼模型對(duì)于提升文本語義表示質(zhì)量是十分必要的。另外,現(xiàn)有的語義表示模型僅利用無結(jié)構(gòu)的、單一模態(tài)的文本信息而忽略了豐富的世界知識(shí),無法將不同模態(tài)的世界知識(shí)進(jìn)行關(guān)聯(lián)、對(duì)學(xué)過的知識(shí)進(jìn)行有效地存儲(chǔ)和檢索。這使得表示模型的訓(xùn)練依賴大量語料且泛化性能差,因此,未來工作應(yīng)考慮如何融合多種模態(tài)信息和已有的知識(shí)庫資源開發(fā)更加智能的語義表示模型。還有,目前的語義表示方法局限于利用語義相似度或在下游任務(wù)中的測(cè)試質(zhì)量進(jìn)行評(píng)價(jià),忽略了如文本間的推理關(guān)系、語義類別等方面信息,無法全面地評(píng)估語義表示的質(zhì)量。因此如何合理地評(píng)價(jià)語義表示的質(zhì)量也是需要研究的關(guān)鍵問題。
2. 面向小樣本和魯棒可解釋的自然語言處理
基于統(tǒng)計(jì)和深度學(xué)習(xí)的自然語言處理方法都強(qiáng)烈依賴于大規(guī)模高質(zhì)量的訓(xùn)練數(shù)據(jù),而很多語言或特定應(yīng)用領(lǐng)域中往往沒有足夠多的訓(xùn)練數(shù)據(jù),這就導(dǎo)致小樣本問題。例如,除了漢語和英語等幾種常用語言外,很多語言(例如土耳其語、烏爾都語、達(dá)利語等)的標(biāo)注資源十分匱乏,高質(zhì)量的自然語言理解和機(jī)器翻譯方法成為空中樓閣。另一方面,盡管當(dāng)前基于深度學(xué)習(xí)的自然語言處理方法性能最佳,但魯棒性較差,且缺乏可解釋性。這主要體現(xiàn)在,模型對(duì)輸入的輕微擾動(dòng)可能會(huì)產(chǎn)生截然不同的輸出結(jié)果,對(duì)預(yù)測(cè)結(jié)果無法解釋、無法歸因。
不同于其他領(lǐng)域中的小樣本問題,自然語言處理中的小樣本問題更具挑戰(zhàn)性。以機(jī)器翻譯為例,小樣本體現(xiàn)在雙語對(duì)照的平行句對(duì)很少,從而會(huì)導(dǎo)致測(cè)試時(shí)很多源語言詞匯及其譯文并未在訓(xùn)練數(shù)據(jù)中出現(xiàn)過,即待預(yù)測(cè)的標(biāo)簽空間是也未知的。因此,如何解決小數(shù)據(jù)的自然語言處理任務(wù)是一個(gè)具有挑戰(zhàn)性的熱點(diǎn)研究問題。此外,各種實(shí)際應(yīng)用任務(wù),例如金融投資預(yù)測(cè)、法律法規(guī)解讀以及醫(yī)療方案規(guī)劃等,不僅需要準(zhǔn)確的決策,還希望結(jié)果是魯棒的,并且是可歸因的。但是,基于深度學(xué)習(xí)的自然語言處理實(shí)質(zhì)是學(xué)習(xí)一個(gè)非線性映射函數(shù),無法闡述決策過程,也就是模型本身就是不可解釋的。所以,魯棒可解釋的自然語言處理模型研究必將成為自然語言處理的核心關(guān)鍵科學(xué)問題,它直接決定了自然語言處理在特定領(lǐng)域的實(shí)際應(yīng)用。
3. 基于多模態(tài)信息的自然語言處理
幾十年來的自然語言處理研究幾乎都是以文本為處理對(duì)象,而文本只是語義表達(dá)的一種方式,也是不完備的一種方式。很多自然語言的語義理解需要結(jié)合語音和圖像等其他模態(tài)的信息,例如英語句子中“bank”可能需要借助圖像是“銀行”還是“河岸”去進(jìn)行理解。基于多模態(tài)的自然語言處理旨在以自然語言文本為核心,將與之相關(guān)的語音和視覺模態(tài)的信息作為輔助知識(shí)進(jìn)行建模,幫助語義的消岐和理解,從而實(shí)現(xiàn)性能更好的自然語言處理模型。
基于多模態(tài)信息的自然語言處理需要解決兩大難題。首先,需要明確哪些自然語言處理任務(wù)需要多模態(tài)信息的幫助。其次,文本、語音和視覺模態(tài)的信息如何進(jìn)行融合。特別地,還需要明確同源多模態(tài)信息和異源多模態(tài)信息是否應(yīng)該具有相同的語義融合范式。由于人類就是在多模態(tài)的環(huán)境下進(jìn)行語言理解,因此,基于多模態(tài)信息的自然語言處理方法必將是未來該領(lǐng)域研究的一個(gè)重要方向。
4. 交互式、自主學(xué)習(xí)的自然語言處理
目前絕大部分的自然語言處理方法幾乎都是全局的和靜態(tài)的,無法體現(xiàn)實(shí)時(shí)(在線)從錯(cuò)誤和用戶反饋中學(xué)習(xí)和優(yōu)化過程,從而模擬人類交互學(xué)習(xí)和終身學(xué)習(xí)的智能行為。交互式自然語言處理旨在與用戶的交互過程中收集、建模和利用反饋信息,不斷迭代和優(yōu)化自然語言處理模型。在線方法能夠被動(dòng)或主動(dòng)地發(fā)現(xiàn)錯(cuò)誤,并根據(jù)錯(cuò)誤實(shí)現(xiàn)在線學(xué)習(xí)和動(dòng)態(tài)更新機(jī)制,最終建立一套自主學(xué)習(xí)框架。
交互式自然語言處理需要克服三個(gè)難點(diǎn)。首先,需要設(shè)計(jì)一個(gè)自然的交互式環(huán)境和平臺(tái);其次,需要設(shè)計(jì)真實(shí)高效的交互任務(wù);最后,需要建立一個(gè)基于反饋的終身學(xué)習(xí)的自然語言處理模型??梢灶A(yù)見,一個(gè)成熟智能的自然語言處理系統(tǒng)一定是能夠建立人與機(jī)器的生態(tài)閉環(huán),并在與人類的交互過程中逐步得到優(yōu)化的系統(tǒng)。因此,面向在線人機(jī)交互和自主學(xué)習(xí)的自然語言處理方法將會(huì)是一個(gè)未來的研究趨勢(shì)。
5. 類腦語言信息處理
基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在近年來備受推崇,它在某種意義上的確模擬了人腦的認(rèn)知功能,但是,這種方法只是對(duì)神經(jīng)元結(jié)構(gòu)和信號(hào)傳遞方式給出的形式化數(shù)學(xué)描述,并非是基于人腦的工作機(jī)理建立起來的數(shù)學(xué)模型,它同樣難以擺脫對(duì)大規(guī)模訓(xùn)練樣本的依賴性。類腦語言信息處理旨在通過研究大腦的語言認(rèn)知機(jī)理,分析認(rèn)知機(jī)理與文本計(jì)算方法之間的關(guān)聯(lián),最終設(shè)計(jì)語言認(rèn)知啟發(fā)的自然語言處理模型。
目前人們只是在宏觀上大致了解腦區(qū)的劃分和在語言理解過程中所起的不同作用,但在介觀和微觀層面,語言理解的生物過程與神經(jīng)元信號(hào)傳遞的關(guān)系,以及信號(hào)與語義、概念和物理世界之間的對(duì)應(yīng)與聯(lián)系等,都是未知的奧秘。如何打通宏觀、介觀和微觀層面的聯(lián)系并給出清晰的解釋,將是未來急需解決的問題。從微觀層面進(jìn)一步研究人腦的結(jié)構(gòu),發(fā)現(xiàn)和揭示人腦理解語言的機(jī)理,借鑒或模擬人腦的工作機(jī)理建立形式化的數(shù)學(xué)模型才是最終解決自然語言理解問題的根本出路。此外,人腦的語言理解過程遵循自主學(xué)習(xí)和進(jìn)化機(jī)制,而目前語言信息處理模型仍然采用一次學(xué)習(xí)終身使用的機(jī)制。因此,如何借鑒人腦的語言認(rèn)知與理解機(jī)理設(shè)計(jì)具備自主學(xué)習(xí)和進(jìn)化的自然語言理解模型是通向類人智能語言處理的必經(jīng)之路。
6. 復(fù)雜場(chǎng)景下的語音分離與識(shí)別
在真實(shí)場(chǎng)景中,麥克風(fēng)接收到的語音信號(hào)可能同時(shí)包含多個(gè)說話人的聲音以及噪聲、混響和回聲等各種干擾,人類的聽覺系統(tǒng)可以很容易地選擇想要關(guān)注的內(nèi)容,但是對(duì)于計(jì)算機(jī)系統(tǒng)來說就顯得十分困難,這就是所謂的雞尾酒會(huì)問題。如何有效的提升復(fù)雜信道和強(qiáng)干擾下的語音的音質(zhì),進(jìn)一步探索復(fù)雜場(chǎng)景下的聽覺機(jī)理,對(duì)語音聲學(xué)建模和語音識(shí)別均具有很重要的意義。
此外,重口音、口語化、小語種、多語言等復(fù)雜情況,也對(duì)語音模型的訓(xùn)練帶來很大挑戰(zhàn),這種復(fù)雜性,使得語音數(shù)據(jù)變得稀疏,現(xiàn)有的方法難以形成泛化能力很強(qiáng)的模型。因此,如何有效解決這些復(fù)雜情況下的語音識(shí)別問題依然具有很高的挑戰(zhàn)性和研究?jī)r(jià)值。
7. 小數(shù)據(jù)個(gè)性化語音模擬
盡管目前語音合成技術(shù)在特定數(shù)據(jù)集和限定條件下能合成出逼近真人的語音,但是仍然存在一些問題,比如雖然發(fā)音和真人類似,但往往發(fā)音風(fēng)格比較單一,且經(jīng)常需要較多的語音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。在真實(shí)場(chǎng)景中,發(fā)音人說話比較隨意和口語化,且大多數(shù)情況下只能獲取很少量音質(zhì)較低的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)普遍缺乏標(biāo)注,給真實(shí)場(chǎng)景下個(gè)性化語音模擬帶來很多挑戰(zhàn)。此外,由于個(gè)性化語音數(shù)據(jù)還存在著數(shù)據(jù)稀疏問題,阻礙了在稀疏空間下精準(zhǔn)捕捉目標(biāo)說話人的韻律特征和有效構(gòu)建說話人發(fā)音表征,從而很難構(gòu)建出高泛化性和高魯棒性的語音模擬模型。因此,如何有效利用數(shù)量少且音質(zhì)低的語音數(shù)據(jù),獲得高表現(xiàn)力個(gè)性化模擬語音仍然具有較大的挑戰(zhàn)和重要的研究?jī)r(jià)值。
聯(lián)系客服