自然語言理解以語言學為基礎,融合邏輯學、計算機科學等學科,通過對語法、語義、語用的分析,獲取自然語言的語義表示。
了解一下自然語言理解技術概述-開課吧
指利用規(guī)則定義如何如何從文本中提取語義。大致思路是人工定義很多語法規(guī)則,它們是表達某種特定語義的具體方式,然后自然語言理解模塊根據這些規(guī)則解析輸入該模塊的文本。
優(yōu)點:靈活,可以定義各種各樣的規(guī)則,而且不依賴訓練數據;
缺點:需要大量的、覆蓋不同場景的規(guī)則,且隨著規(guī)則數量的增長,對規(guī)則進行人工維護的難度也會增加。
結論:只適合用在相對簡單的場景,其優(yōu)勢在于可以快速實現(xiàn)一個簡單可用的語義理解模塊。
通常使用大量的數據訓練模型,并使用訓練所得的模型執(zhí)行各種上層語義任務。
優(yōu)點:數據驅動且健壯性較好;
缺點:訓練數據難以獲得且模型難以解釋和調參;
通常使用數據驅動的方法解決分類和序列標注方法。
了解一下自然語言理解技術概述-開課吧
沒有數據及數據較少時先采取基于規(guī)則的方法,當數據積累到一定規(guī)模時轉為使用基于統(tǒng)計的方法。
在一些基于統(tǒng)計的方法可以覆蓋絕大多數場景,在一些其覆蓋不到的場景中使用基于規(guī)則的方法兜底,以此來保證自然語言理解的效果。
意圖識別
實質:分類問題
輸入:句子的文本特征
輸出:句子文本特征所屬的意圖分類
算法:SVM、AdaBoost算法等
實體抽取
實質:序列標注
輸入:句子的文本特征
輸出:每個詞或每個字屬于實體的概率
算法:隱馬爾可夫模型(hidden Markov model,HMM),條件隨機場(conditional random field,CRF)
注:當數據量足夠大時,使用基于神經網絡的深度學習方法處理意圖識別和實體抽取任務可以取得更好的效果。
聯(lián)系客服