隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展和知識(shí)互聯(lián)時(shí)代的到來,人們期寄著構(gòu)建一個(gè)更加智能的、機(jī)器可理解可計(jì)算的萬維網(wǎng)。知識(shí)圖譜的概念逐漸出現(xiàn)在人們視野中。知識(shí)圖譜在語(yǔ)義處理、開放處理等功能方面都顯現(xiàn)出很強(qiáng)的能力,在智能推薦、問答和對(duì)話系統(tǒng)以及大數(shù)據(jù)分析和決策等應(yīng)用中也體現(xiàn)出越來越重要的價(jià)值。知識(shí)圖譜預(yù)計(jì)將在互聯(lián)網(wǎng)知識(shí)互聯(lián)的實(shí)現(xiàn)過程中起到中流砥柱的作用。
在漢斯出版社《數(shù)據(jù)挖掘》期刊中,有論文首先以知識(shí)圖譜的構(gòu)建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個(gè)國(guó)際測(cè)評(píng)會(huì)議的角度回顧信息抽取的發(fā)展歷史;接著,基于面向限定域和開放域兩個(gè)方面,介紹信息抽取的關(guān)鍵技術(shù),包括實(shí)體抽取技術(shù)、關(guān)系抽取技術(shù)和屬性抽取技術(shù)。
信息抽取系統(tǒng)是一種從大量信息源中迅速拋開無效信息找到有用信息的信息獲取工具。信息抽取通常從兩方面進(jìn)行實(shí)現(xiàn):一類是基于知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的方法,通常處理結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù);另一類是基于自然語(yǔ)言處理和文本挖掘的方法,通常處理非結(jié)構(gòu)化數(shù)據(jù)。信息抽取的具體方法可分為三類:第一類是基于規(guī)則(基于專家系統(tǒng))的方法。主要在早期使用,使用人工編制規(guī)則,存在效率低,系統(tǒng)可移植性差等不可忽視的局限性;第二類是基于統(tǒng)計(jì)的方法,可在一定程度彌補(bǔ)第一類方法的缺點(diǎn);第三類是基于機(jī)器學(xué)習(xí)的方法,,它大幅減少了人工干預(yù),并具有處理新文本的能力,是目前常用的方法。
本文首先根據(jù)知識(shí)圖譜的概念、構(gòu)建技術(shù)框架引出了信息抽取的概念,接著通過三個(gè)國(guó)際評(píng)測(cè)會(huì)議介紹了信息抽取的發(fā)展歷史;后續(xù)詳細(xì)介紹了信息抽取關(guān)鍵技術(shù),包括實(shí)體抽取、關(guān)系抽取和屬性抽?。蛔詈蠓治隽诵畔⒊槿〉难芯口厔?shì)。我們系統(tǒng)性分析了面向知識(shí)圖譜信息抽取的常用方法,根據(jù)技術(shù)特點(diǎn)分為實(shí)體抽取、關(guān)系抽取以及屬性抽取三類子任務(wù)。其中各個(gè)子任務(wù)根據(jù)其應(yīng)用領(lǐng)域分為面向特定領(lǐng)域和面向開放域兩種,根據(jù)其數(shù)據(jù)來源分為面向文本和面向Web兩種。
在面向特定領(lǐng)域的情境下,信息抽取各個(gè)子任務(wù)的技術(shù)方法較成熟、經(jīng)典,例如在實(shí)體抽取中常用CRF、ME、HMM、NN-CRF等基于統(tǒng)計(jì)的模型;在關(guān)系抽取中常使用基于監(jiān)督、半監(jiān)督或無監(jiān)督的機(jī)器學(xué)習(xí)方法。
在面向開放領(lǐng)域的應(yīng)用中,隨著大數(shù)據(jù)時(shí)代、全網(wǎng)時(shí)代的到來,更多新的優(yōu)秀的方法正在不斷地涌現(xiàn)。具體地,在實(shí)體識(shí)別任務(wù)中,出現(xiàn)了一些基于自學(xué)習(xí)方法的實(shí)體分類模型,從而不再需要通過人工構(gòu)造大量語(yǔ)料標(biāo)注、大量的特征;在關(guān)系抽取中,出現(xiàn)了以O(shè)IE框架為基礎(chǔ)的眾多優(yōu)秀系統(tǒng),基本實(shí)現(xiàn)了各種詞性間的關(guān)系抽取以及隱含關(guān)系的抽取。
文章來源:https://doi.org/10.12677/hjdm.2020.104030
聯(lián)系客服