九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
基于特征學習的文本大數(shù)據(jù)內(nèi)容理解及其發(fā)展趨勢

199IT數(shù)據(jù)中心微信賬戶:i199IT

大數(shù)據(jù)中蘊含著重要的價值信息,文本大數(shù)據(jù)作為大數(shù)據(jù)的重要組成部分,是人類知識的主要載體。特征作為數(shù)據(jù)內(nèi)在規(guī)律的反映,將文本大數(shù)據(jù)映射到反映數(shù)據(jù)本質(zhì)的特征空間是文本大數(shù)據(jù)語義理解的重要手段。介紹了文本大數(shù)據(jù)的特征表示、特征學習,進而梳理了特征學習在文本大數(shù)據(jù)內(nèi)容理解中的進展,最后闡述了基于特征學習的文本大數(shù)據(jù)內(nèi)容理解未來的發(fā)展趨勢。

1 引言

近年來,隨著互聯(lián)網(wǎng)、云計算、社交網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)空間中的信息總量在飛速膨脹,網(wǎng)絡(luò)大數(shù)據(jù)時代已經(jīng)到來。如何充分挖掘大數(shù)據(jù)中蘊含的價值成為全社會共同關(guān)注的話題。

在20世紀90年代,數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)提出數(shù)據(jù)倉庫的概念,激活了沉睡在數(shù)據(jù)庫中多年的歷史數(shù)據(jù),使之用于數(shù)據(jù)分析與決策支持,以挖掘出隱藏在數(shù)據(jù)背后的有價值信息。而在大數(shù)據(jù)時代,互聯(lián)網(wǎng)每分鐘都在產(chǎn)生大量的數(shù)據(jù),YouTube每分鐘內(nèi)上傳的視頻長達72 h,F(xiàn)acebook上每分鐘共分享了多達246萬條信息,Instagram每分鐘可產(chǎn)生21萬張新照片;在數(shù)據(jù)快速增長、數(shù)據(jù)類型多樣、數(shù)據(jù)結(jié)構(gòu)復雜的背景下,傳統(tǒng)的基于靜態(tài)、淺層的數(shù)據(jù)分析方法,已經(jīng)無法適應(yīng)當前越來越多的對數(shù)據(jù)語義深層理解和計算應(yīng)用的需求。因此,大數(shù)據(jù)的分析、挖掘成為學術(shù)界、工業(yè)界共同的研究熱點。

文本大數(shù)據(jù)是網(wǎng)絡(luò)大數(shù)據(jù)的重要組成部分,人們?nèi)粘9ぷ骱蜕钪薪佑|最多的電子文檔也是以文本的形式存在。從海量文本數(shù)據(jù)中挖掘有價值的信息、知識,一直都是學術(shù)界研究的熱點問題,但是文本大數(shù)據(jù)的復雜性和規(guī)模性,導致傳統(tǒng)的全量數(shù)據(jù)模式下對文本進行分析變得異常困難。挖掘海量文本數(shù)據(jù)的特征是降低計算時空復雜性、實現(xiàn)文本語義理解的重要手段。

本文主要介紹近年來伴隨特征學習技術(shù)的發(fā)展,對海量文本數(shù)據(jù)特征發(fā)現(xiàn),進而實現(xiàn)語義理解方面所取得的新進展。

2 文本大數(shù)據(jù)特征

人類是通過識別出物體的特征來認識不同的物體的,因此,特征作為數(shù)據(jù)本質(zhì)的反映是理解數(shù)據(jù)的重要手段。將文本大數(shù)據(jù)映射到其特征空間,首先需要確定文本大數(shù)據(jù)的特征表示方式,正如不同的人認識同一物體時,會以不同的方式抽象物體的特征,特征表示方式也不盡相同,但是一個良好的特征表示方式是保證特征可理解、可計算的基礎(chǔ);在確定了特征表示方式的基礎(chǔ)上,從文本大數(shù)據(jù)中學習能夠精確表達文本語義的特征是實現(xiàn)內(nèi)容理解的關(guān)鍵。

2.1 特征表示

由于文本大數(shù)據(jù)的多源異構(gòu)性,實現(xiàn)海量文本的內(nèi)容理解首先需要將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計算機可操作的結(jié)構(gòu)化模型,文本特征表示將文本信息映射到計算機可理解的特征空間,從而為計算機理解文本語義提供基礎(chǔ)。在文本數(shù)據(jù)分析領(lǐng)域,傳統(tǒng)的算法依賴人工定義反映輸入數(shù)據(jù)性質(zhì)的特征作為模型的輸入,而為了盡可能地反映自然語言規(guī)律,提高算法的準確性,人工定義特征往往數(shù)量十分龐大,通常這一步驟稱作特征工程。為了生成大量的特征,特征工程首先定義一系列的特征模板(feature template),利用特征模板進一步產(chǎn)生語言的特征。例如,在語言模型的研究中,定義三元特征模板(trigram feature template),對于訓練語料庫中出現(xiàn)的任意三元組(u,v,w),若在出現(xiàn)詞語u、v的情況下,出現(xiàn)詞語w,則該特征為1;類似地,還可以定義二元特征模板、一元特征模板或詞語前綴模板等。

從特征模板的定義可以看出,最終生成的特征可以高達數(shù)十萬甚至數(shù)百萬級別,這也導致人工定義的特征十分稀疏,只有極少部分的特征為非0值,而當測試語料中出現(xiàn)訓練數(shù)據(jù)中沒有的特征時,將訓練數(shù)據(jù)產(chǎn)生的特征應(yīng)用于測試數(shù)據(jù),效果并不理想;且人工定義特征在面對特定任務(wù)時,通常存在過度細化的問題,而面對海量數(shù)據(jù)時,又存在表示不足的問題。

近年來,表示學習(representation learning)或非監(jiān)督的特征學習(unsupervised feature learning)由于其可以自動地發(fā)現(xiàn)數(shù)據(jù)特征,從而有效地避免繁瑣的人工參與,成為重要的研究方向。深度學習作為特征學習的主要手段,不僅可以利用海量訓練數(shù)據(jù)實現(xiàn)分類、回歸等傳統(tǒng)機器學習的目標,還可以在模型的訓練過程中產(chǎn)生層次化的抽象特征,該特征表示是提高訓練準確性的重要基礎(chǔ)。圖1[1]對比了傳統(tǒng)機器學習和深度學習在實現(xiàn)步驟上的不同。

圖 1 深度學習與傳統(tǒng)機器學習步驟對比

一般而言,特征學習的目的在于學習一種數(shù)據(jù)的轉(zhuǎn)換方式,用于從數(shù)據(jù)中抽取有效的特征信息,最終使得數(shù)據(jù)的分類、預測更加準確,而有價值的特征信息應(yīng)該滿足表達性、抽象性、排他性等要求[2]。

(1)表達性

表達性是指合理大小的特征應(yīng)該能夠有效表示足夠大的輸入數(shù)據(jù)。傳統(tǒng)的文本數(shù)據(jù)理解以one-hot的形式表示,n維的空間只能表示n個特征。分布表示(distributed representations)是一種基于神經(jīng)網(wǎng)絡(luò)的表示方式,其思想來自于認知表示,它認為腦中的一個物體可以用許多描述該物體的神經(jīng)元來有效表示,這些神經(jīng)元可以獨立地激活或不激活,例如,一個n維的二值神經(jīng)元集合,可以描述2n個不同的數(shù)據(jù),即每一個數(shù)據(jù)都由所有的神經(jīng)元共同表示,而每個神經(jīng)元都參與到各個不同數(shù)據(jù)的表示[3]中去。因此,分布表示可以看作由n維連續(xù)實值向量構(gòu)成的特征空間,向量的每一維共同構(gòu)成數(shù)據(jù)的特征表示向量,特征表示維度不會隨著數(shù)據(jù)數(shù)量的增加而增加。

(2)抽象性

文本特征是對文本數(shù)據(jù)本身的抽象表示,因此文本的特征對文本數(shù)據(jù)的抖動應(yīng)具有相應(yīng)的頑健性,同時也不應(yīng)該因任務(wù)的不同而變化。通常而言,對特征的抽象也具有層次性,低層次的抽象特征來源于輸入數(shù)據(jù),高層次的抽象特征來源于對低層次抽象特征的進一步學習,抽象的層次越高對數(shù)據(jù)抖動的不變性就越強,例如,相似的詞匯、同義語句應(yīng)該有相似的特征。因此,特征的抽象性反映了特征的不變性和層次性。

(3)排他性

文本特征的排他性是指特征應(yīng)該刻畫數(shù)據(jù)不同方面的性質(zhì),對于互不相同的性質(zhì),其特征也應(yīng)該互相排斥。例如,文本是由文本的結(jié)構(gòu)、文本中詞語的選擇、文本詞語出現(xiàn)的順序等多種互相關(guān)系的因素共同組成,而有效的特征表示應(yīng)該能夠盡可能多地分離出互相關(guān)聯(lián)的因素,使得不同的抽象特征反映不同的文本內(nèi)在因素。

文本大數(shù)據(jù)特征的表達性、抽象性和排他性定義了特征表示的不同層次,逐層遞進。文本大數(shù)據(jù)的表達性保證了文本特征必須適合刻畫非結(jié)構(gòu)化數(shù)據(jù),并且特征表示本身能夠以固定的結(jié)構(gòu)描述文本;在此基礎(chǔ)上,文本特征應(yīng)該是對文本內(nèi)容的歸納和抽象,文本大數(shù)據(jù)是無窮盡的,但是特征應(yīng)該是有限的;最后,特征的排他性要求特征能夠使一個對象區(qū)別于其他對象,即如果一個文本具有某個特征,那么這個特征就能使這個文本區(qū)別于不具有這個特征的文本,從而為文本內(nèi)容的精確理解提供基礎(chǔ)。

2.2 特征學習

特征表示規(guī)約了特征的抽象形式,特征學習則指在選擇特征表示的規(guī)范下,學習數(shù)據(jù)的特征。目前,對特征的學習主要有兩類方法:一類是通過監(jiān)督學習的方法,利用訓練數(shù)據(jù)構(gòu)建適合描述數(shù)據(jù)特征的模型;另一類是非監(jiān)督學習的方法,該類方法主要通過降維將數(shù)據(jù)約簡至特征空間,以發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律。近年來,由于深度學習可以自動發(fā)現(xiàn)結(jié)構(gòu)化深層次特征,從而逐漸成為特征學習的主要方法。深度學習本質(zhì)上是一個深度、多層的神經(jīng)網(wǎng)絡(luò)模型,由于它在圖像處理、語音識別、自然語言處理等應(yīng)用上的重大突破而成為研究熱點。

2006年,Hinton等人[4]利用受限玻爾茲曼機(restricted Bolzman machine)非監(jiān)督地預訓練(pre-training)深層神經(jīng)網(wǎng)絡(luò)中每一層模型的參數(shù),進而利用反向傳播算法有監(jiān)督地更新整體模型的參數(shù),極大地提高了模型在圖像識別上的準確率。其中,每一層受限玻爾茲曼機預訓練得到的模型都可以看作對圖像不同層次上的抽象特征。因此,早期的深度學習算法可分為兩個階段,首先是對每一層神經(jīng)網(wǎng)絡(luò)非監(jiān)督地預訓練該層模型參數(shù),得到各層的抽象特征表示,進而將預先訓練好的各層神經(jīng)網(wǎng)絡(luò)模型疊加,以構(gòu)成深度模型,并依據(jù)訓練數(shù)據(jù)中的標注信息對整個模型的參數(shù)進行調(diào)優(yōu)(finetune),以提高算法的準確性,從而體現(xiàn)出深度神經(jīng)網(wǎng)絡(luò)復雜模型帶來的表示能力提高的優(yōu)勢。隨著深度學習技術(shù)的自身發(fā)展[5,6],深度模型逐漸不再依賴非監(jiān)督的預訓練,而是直接學習出結(jié)構(gòu)化的模型并用于預測,特征學習也即通過深度模型訓練得到的層次化的抽象特征。

3 文本大數(shù)據(jù)內(nèi)容理解

由于語言本身是一個復雜的結(jié)構(gòu)對象,借助于特征學習方法可以較好地刻畫語言的復雜結(jié)構(gòu),從而實現(xiàn)對文本大數(shù)據(jù)的內(nèi)容理解?;谔卣鲗W習的文本大數(shù)據(jù)內(nèi)容理解目前主要從兩個方面展開:第一個方面是面向非結(jié)構(gòu)化文本,以詞匯為基本單元,抽象詞匯的特征,進而組合以表示語句的特征,并在特征表示的基礎(chǔ)上實現(xiàn)對文本內(nèi)容的理解;第二個方面是面向結(jié)構(gòu)化知識數(shù)據(jù),以知識表示三元組為基本單元,從非結(jié)構(gòu)化文本中抽取出計算機可操作的結(jié)構(gòu)化知識,實現(xiàn)知識的發(fā)現(xiàn)、推理等,從而理解文本的內(nèi)容。

3.1 面向非結(jié)構(gòu)化文本的內(nèi)容理解

詞匯作為自然語言的最小組成單元,學習其特征是讓計算機理解詞匯進而理解文本的基礎(chǔ);在理解詞匯的基礎(chǔ)上,闡述語義組合方法,語義組合通過將詞匯組合成短語、語句的特征表示,從而讓計算機理解文本大數(shù)據(jù)內(nèi)容。

3.1.1 詞匯理解

在計算機中,所有的字符都是以固定的編碼形式表示,例如,漢字“中”在Unicode編碼中表示為“4E2D”,字母“A”的Unicode編碼為“0041”。計算機中的文字是由無任何意義的編碼拼接而成,均無法直接應(yīng)用于文本理解。因此,一種能夠刻畫詞匯語義特征的表示方式是實現(xiàn)詞匯語義理解的關(guān)鍵。

以詞匯為基本單位,旨在研究建立合適的詞語表示模型,經(jīng)典的當屬以WordNet[7]和知網(wǎng)(HowNet)[8]為代表的人工編制的知識庫。WordNet中每個詞項(synsets)都代表詞匯的一個具體含義,詞項間通過詞義的語義關(guān)系建立聯(lián)系,形成完善的詞匯網(wǎng)絡(luò),以表達詞匯語義。知網(wǎng)則是把概念與概念之間的關(guān)系以及概念的屬性與屬性之間的關(guān)系構(gòu)成網(wǎng)狀的知識系統(tǒng),知網(wǎng)定義義原為最小的語義概念單元,并通過義原對義項的結(jié)構(gòu)屬性相互關(guān)系描述詞匯語義。這類人工知識庫對詞匯的語義描述雖然準確,但是其規(guī)模小,缺乏可擴展性和自適應(yīng)能力,難以滿足文本大數(shù)據(jù)語義理解的需要。

利用特征學習方法實現(xiàn)詞匯的語義表示源自神經(jīng)網(wǎng)絡(luò)語言模型,語言模型的訓練目的是最大化詞匯出現(xiàn)的概率分布。在參考文獻[9]中,作者基于前向神經(jīng)網(wǎng)絡(luò)語言模型,隨機初始化訓練語料庫中的詞向量表示,以海量文本作為訓練數(shù)據(jù),假設(shè)在文本中套用滑動窗口產(chǎn)生的短句為正例樣本f,將滑動窗口中的某個詞隨機替換為詞典中的任一詞所產(chǎn)生的錯誤短句為負樣本f′,并令正例樣本的得分比負例樣本的得分高,以Hinge loss為目標函數(shù),該目標函數(shù)在正例樣本和負例樣本中劃分距離為1的邊界,從而利用反向傳播算法更新詞向量,通過訓練得到的詞匯表示向量,使得相似的詞的特征表示也相似。

由于神經(jīng)語言模型復雜,基于多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)計算詞匯表示向量,存在計算量較大的問題,訓練時間往往需要幾天甚至數(shù)周。Mikolov等人[10]提出了Word2vec模型,該模型極大簡化了多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),僅包含一層投影層,使得計算效率大幅提高。該模型包括連續(xù)詞袋模型(continue bag of words,CBOW)和Skip-gram模型兩種詞向量的訓練方法。CBOW模型的目標是給定窗口為n的上下文wc,預測中間的詞wi,其中,投影層為對所有的上下文詞向量求平均值,即

,并利用投影層預測目標詞wi的概率;Skip-gram模型的目標則是給定目標詞wi,預測上下文的詞wc的概率。

3.1.2 語義組合

詞匯特征表示向量在一定程度上解決了詞匯的語義理解問題,語義組合則是將詞匯組合成詞組或者語句的語義表示形式,已實現(xiàn)語句級的語義理解。語義組合符合人們理解語句的方式,人們理解語句不是通過直接記憶句子,而是在理解詞語和詞語組合方式的基礎(chǔ)上理解句子的含義。語義組合的目的是將基本的詞語單元組合,以表達復雜語句的語義,語句整體的語義看作部分語義的組合函數(shù)。因此,語義組合是詞匯語義理解向語句語義理解的重要手段。語義組合函數(shù)定義為[12]:p=f(u,v,R,K),其中,u、v表示待組合部分,R表示u、v間的關(guān)系,K表示用于語義組合的其他上下文知識。

若將R定義為簡單的線性關(guān)系,則可以實現(xiàn)基于加法p=u+v和乘法p=u·v的組合函數(shù),這種組合方式雖然簡單,但在組合時忽略了詞在文本中出現(xiàn)的順序,即u+v=v+u或u·v=v·u,存在明顯的缺陷。這導致不同含義的詞組可能有相同的表示形式,例如“種子植物”和“植物種子”有相同的表示,但是這兩個詞組前者描述一類植物,后者表示種子,意義并不相同。有研究顯示,英文文章的含義 80%來自于詞的選擇, 20%來自于詞的順序,因此忽略詞序?qū)φZ義理解有較大的損失。

基于特征學習的復雜模型由于符合語義組合的方式、刻畫語句的特征,獲得廣泛的關(guān)注,并在語句的語義理解上取得很好的效果。遞歸自編碼(recursive autoencoders)[13]是一種非線性的語義組合模型,它以遞歸的方式組合自編碼網(wǎng)絡(luò),構(gòu)建短語或句子的語義特征表示。遞歸自編碼模型是由自編碼模型組合而成,自編碼模型是一種非監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,該模型以輸出數(shù)據(jù)約等于輸入數(shù)據(jù)為訓練目標更新模型參數(shù),得到編碼后的隱藏層g為模型輸入數(shù)據(jù)的特征。如圖2所示,u、 v為待組合的兩個詞語的特征表示向量,利用自編碼模型計算組合后詞組的特征表示,為了訓練詞組的特征表示 ,模型解碼詞組特征得到

,并以 為目標訓練模型的參數(shù)和詞組的特征表示向量。如圖3所示,在得到二元詞組的語義組合表示的基礎(chǔ)上,可以遞歸地擴展為一棵二叉樹的結(jié)構(gòu)以實現(xiàn)語義擴展。目前,將句子構(gòu)建成樹有兩種方式:一是利用貪心算法構(gòu)建一棵樹,對于長度為n的句子,計算n-1個連續(xù)二元詞組所構(gòu)造的自編碼模型錯誤率,選擇錯誤率最低的兩個節(jié)點組合構(gòu)成一棵二叉樹,在剩下的n-2個節(jié)點中,繼續(xù)選擇自編碼模型錯誤率最低的連續(xù)兩個節(jié)點組合,直到組合至根節(jié)點為止;二是利用語法樹構(gòu)建遞歸自編碼,該方法將句子解析為語法樹的形式,這不僅降低了計算復雜性,還保留了句子的語法結(jié)構(gòu),因此語義組合后能得到更好的語句特征。

圖 2 自編碼模型

圖 3 基于遞歸自編碼的語義組合模型

利用語義組合方法構(gòu)建的抽象語句特征表示,可以更好地識別出語句的內(nèi)在語義,使得相似的語句有相似的特征表示,從而用于語句的情感挖掘、詞組相似性、同義語句識別等語義理解任務(wù)中。

3.2 面向結(jié)構(gòu)化知識的內(nèi)容理解

結(jié)構(gòu)化知識是文本內(nèi)容理解的產(chǎn)物,同時也可用于文本的內(nèi)容理解。知識數(shù)據(jù)作為搜索引擎、智能問答重要的信息源,扮演著越來越重要的角色。通過知識圖譜可以建立實體的關(guān)系網(wǎng)絡(luò),賦予豐富的語義信息,從而為文本理解提供基礎(chǔ)。

3.2.1 知識表示

將知識表示成計算機可計算的符號化形式,是讓計算機理解知識的基礎(chǔ)。對知識表示的研究伴隨著計算機的整個發(fā)展階段,提出了一系列表示方法,如謂詞邏輯表示方法、框架式表示方法、產(chǎn)生式表示方法和面向?qū)ο蟊硎痉椒ǖ?,不同的知識表示方法對問題解決有不同的幫助。良好的知識表示方法應(yīng)能滿足不同類型使用者的要求,一般來說,對知識表示的要求應(yīng)考慮以下幾個方面:表示知識的范圍要廣泛,表示的形式要適合于推理,并且要具有可解釋的能力。

隨著語義網(wǎng)的發(fā)展,將知識以本體(ontology)的形式進行組織,以描述概念和概念間的關(guān)系,這已經(jīng)成為重要的知識表示方式;但是,由于本體的結(jié)構(gòu)過于復雜,近年來語義結(jié)構(gòu)相對簡單的知識圖譜成為知識表示的熱門發(fā)展方向。

通常,知識圖譜包括大量的實體(如奧巴馬、夏威夷)、實體的語義類別(如奧巴馬屬于政治家分類,夏威夷屬于城市的分類)和實體間的關(guān)系(如奧巴馬和夏威夷的關(guān)系是奧巴馬出生于夏威夷),并以三元組的形式表示(主體,關(guān)系,客體),記作(el,r,er)(如(奧巴馬,出生于,夏威夷))。

由于知識圖譜的重要作用,學術(shù)界和工業(yè)界都在努力構(gòu)建大規(guī)模知識圖譜,以滿足實際應(yīng)用需要,其中,典型的知識圖譜包括Freebase、NELL(never-ending language learning)等。Freebase是以眾包的形式構(gòu)建的知識圖譜,因而包含一定的噪音數(shù)據(jù),目前已包含大于4 000萬個實體、大于20 000種關(guān)系,共大約19億條記錄;而NELL項目自2010年以來,不斷地從互聯(lián)網(wǎng)中抽取結(jié)構(gòu)化數(shù)據(jù),且不停地迭代更新已有數(shù)據(jù)的置信度,目前已累計超過5 000萬條知識數(shù)據(jù)。

3.2.2 知識發(fā)現(xiàn)

利用特征學習表示知識數(shù)據(jù)是在詞匯特征表示捕捉詞匯語義的基礎(chǔ)上,構(gòu)建關(guān)系的表示方法,進而實現(xiàn)結(jié)構(gòu)化知識的發(fā)現(xiàn)。其中,經(jīng)典的工作是TransE模型[14],該模型將三元組中的關(guān)系看作主體到客體的翻譯,使得三元組滿足的線性轉(zhuǎn)換。利用特征表示向量描述實體和關(guān)系,可以更加容易地計算實體間的語義關(guān)系。但是該方法不能很好地刻畫多對一、一對多或多對多的關(guān)系,例如在多對一的關(guān)系中,在關(guān)系r和客體的特征表示向量相同的情況下,由于三元組滿足el+r?er的映射要求,使得不同主體的特征表示也會相同,這顯然不符合特征的語義表示,因此該模型未來還有繼續(xù)改進的空間。在得到實體、關(guān)系的特征語義表示的基礎(chǔ)上,可以進一步實現(xiàn)關(guān)系的抽取和發(fā)現(xiàn)。例如,給定主體el和客體er,通過判斷與er-el最相似的關(guān)系特征表示向量r,確認兩個實體間的關(guān)系;或在給定主體el和關(guān)系r的情況下,判斷與el+r最相似的客體er,從而發(fā)現(xiàn)新的三元組知識數(shù)據(jù)。實驗顯示,通過簡單的向量加減法可以發(fā)現(xiàn)新的事實數(shù)據(jù)或判斷實體間的關(guān)系,這極大提高了知識發(fā)現(xiàn)的效率。

3.2.3 知識推理

計算機的推理能力是計算機智能的重要體現(xiàn)。在知識圖譜中,基于實體關(guān)系的推理是發(fā)現(xiàn)隱藏知識的重要手段。傳統(tǒng)的基于規(guī)則的推理方式,由于完全依賴人為定義,發(fā)現(xiàn)的關(guān)系受限于人為定義的規(guī)則庫,因此自動化的關(guān)系推理是豐富現(xiàn)有知識圖譜的重要手段。在基于線性關(guān)系發(fā)現(xiàn)知識數(shù)據(jù)的基礎(chǔ)上,進一步擴展線性轉(zhuǎn)換關(guān)系,可以實現(xiàn)多關(guān)系組合推理[15],給定兩個相關(guān)聯(lián)三元組(el, r,er)和(er,r’,er’),根據(jù)三元組的線性變換規(guī)則,可以認為在實體、關(guān)系的特征語義空間中,多個三元組間存在的組合推理關(guān)系,從而實現(xiàn)知識的推理。

3.2.4 隱式關(guān)系發(fā)現(xiàn)

知識圖譜是對文本大數(shù)據(jù)內(nèi)容理解的產(chǎn)物,同時,知識圖譜作為豐富的知識資源可以反作用于文本的內(nèi)容理解。由于個體文檔通常只包含少量的關(guān)系數(shù)據(jù),這些關(guān)系數(shù)據(jù)可能不足以體現(xiàn)完整的實體關(guān)系網(wǎng),但是通過與已有的知識圖譜匹配,可以完善實體間的關(guān)系,從而發(fā)現(xiàn)現(xiàn)有文本中無法挖掘的隱式關(guān)系,滿足文本數(shù)據(jù)深層次內(nèi)容理解的需要。

4 基于特征學習的文本內(nèi)容理解發(fā)展趨勢

基于特征學習的方法在文本內(nèi)容理解問題上已經(jīng)取得了一系列突破,未來結(jié)合網(wǎng)絡(luò)大數(shù)據(jù)的涌現(xiàn),對文本內(nèi)容理解的研究還將繼續(xù)發(fā)展。針對非結(jié)構(gòu)化文本的內(nèi)容理解,深度學習由于其可以抽象高層次的概念特征,是未來重要的研究方向;而針對結(jié)構(gòu)化知識的內(nèi)容理解,知識圖譜可以結(jié)構(gòu)化、形式化地刻畫文本的語義內(nèi)容,進而實現(xiàn)關(guān)聯(lián)推理,是實現(xiàn)文本內(nèi)容深度理解的重要手段。

深度學習作為非結(jié)構(gòu)化文本內(nèi)容理解的重要方法,未來將繼續(xù)探索適合文本內(nèi)容理解的模型,以提高內(nèi)容理解的準確性。語言是一種序列模型,語言本身具有一定連續(xù)性,因此一個能刻畫語言時序特征的模型是實現(xiàn)文本內(nèi)容理解的重要基礎(chǔ)。由于遞歸神經(jīng)網(wǎng)絡(luò)具有一定的時序性和記憶性,利用遞歸神經(jīng)網(wǎng)絡(luò)訓練文本的特征符合語言的形式,在機器翻譯、自然語言生成等應(yīng)用中都取得較好的結(jié)果,遞歸神經(jīng)網(wǎng)絡(luò)正逐漸成為文本內(nèi)容理解的重要模型。在遞歸神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,有研究進一步提出有長期記憶能力的遞歸模型,并將該模型用于自動問答中[16],取得了較好的結(jié)果。具有較強記憶能力的模型對于文本內(nèi)容理解起著重要的作用。

同時,對基于深度學習方法自動學習的文本特征的可解釋性也是未來研究的方向。不同于直觀的人工定義特征,通過特征學習方法得到文本抽象特征,其對人而言的可解釋性并不強。最近,Google的研究人員提出了Deep Dream方法,可視化地針對圖像識別的深度模型各層特征。對于文本而言,目前對于文本的抽象特征以及模型自身的可解釋性都還有待進一步研究,只有理解了模型及其抽象特征,才能更好地實現(xiàn)文本內(nèi)容的理解。

知識圖譜作為結(jié)構(gòu)化知識的重要組織形式,刻畫實體關(guān)系的演化是重要發(fā)展方向。實體間的關(guān)系是不斷演化發(fā)展的,具有時序性,因此有其自身的生命周期,繪制一張動態(tài)的知識關(guān)系網(wǎng),對文本大數(shù)據(jù)內(nèi)容理解的實時性有很大幫助。此外,目前的知識圖譜圍繞實體展開,描述實體間的關(guān)系;未來如何從文本大數(shù)據(jù)中抽取事件信息,實現(xiàn)事件的發(fā)現(xiàn)和推理,是文本大數(shù)據(jù)全面深入內(nèi)容理解的重要方向。

5 結(jié)束語

隨著文本大數(shù)據(jù)的涌現(xiàn),文本處理已經(jīng)從數(shù)據(jù)不足轉(zhuǎn)向數(shù)據(jù)過量,雖然文本大數(shù)據(jù)主要是無標注或者弱標注的數(shù)據(jù),但是這類數(shù)據(jù)正好為特征學習方法提供了數(shù)據(jù)基礎(chǔ),進而實現(xiàn)了特征發(fā)現(xiàn)基礎(chǔ)上的文本語義理解?;谔卣鲗W習的文本內(nèi)容理解有了許多探索和突破,但是由于自然語言自身的復雜性、模糊性,特征學習需要更為準確的結(jié)構(gòu)以刻畫自然語言。相信隨著特征學習技術(shù)的發(fā)展和對自然語言本身認識的加深,對文本大數(shù)據(jù)的內(nèi)容理解能力一定會進一步提高。

作者,袁書寒,向陽,鄂世嘉,同濟大學計算機科學與技術(shù)系

大數(shù)據(jù)期刊

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
了解一下自然語言理解技術(shù)概述-開課吧
深度學習在自然語言處理中的進展與挑戰(zhàn)
深度圖神經(jīng)網(wǎng)絡(luò)與自然語言處理的結(jié)合:圖像標注與描述生成
超越 GLIP! | RegionSpot: 識別一切區(qū)域,多模態(tài)融合的開放世界物體識別新方法
今天來聊一聊為什么要使用深度學習技術(shù)來理解語言
大數(shù)據(jù)技術(shù)體系中的語義分析
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服