哈工大信息檢索研究室(HIT-IRLab)語言技術平臺共享資源和程序步驟
一、語言技術平臺相關資源和程序庫說明:
全部資源介紹如表1所示:
表 1. 哈工大信息檢索研究室對外共享語料庫資源
Table 1. Sharing corpora of Information Retrieval Laboratory, Harbin Institute of Technology
語料庫名稱
規(guī)模
說明
漢英雙語語料庫
10萬對齊雙語句對
文本文件格式
同義詞詞林擴展版
77,343條詞語
秉承《同義詞詞林》的編撰風格,同時采用五級編碼體系
多文檔自動文摘語料庫
40個主題
文本文件格式,同一主題下是同一事件的不同報道
漢語依存樹庫
不帶關系5萬句, 帶關系1萬句
LTML化,分詞、詞性、句法部分人工標注,可以圖形化查看
問答系統(tǒng)問題集
6264句,已標注問題類型
LTML化,分詞、詞性、句法、詞義、淺層語義等程序處理得到
單文檔自動文摘語料庫
211篇,分不同體裁
LTML化,文摘句標注,分詞、詞性、句法、詞義、淺層語義、文本分類、指代消解等程序處理得到
程序庫中包含模塊及其依賴關系如圖1所示,程序庫使用示例如圖2所示。
原始文本
斷句
詞法分析
命名實體識別
依存句法分析
全文詞義消歧
單文檔文摘
文本分類
指代消解
淺層語義標注
1. LTP處理模塊間的依賴關系
Figure 1. The dependency relationship between LTP modules
a. LTP Dll庫C++語言調用示例
b. ltpconfig.ini配置文件格式說明 c. ltpconfig.ini示例
2. LTP DLL庫統(tǒng)一接口調用方式
Figure 2. The uniform invoking interface of LTP Dll
基于TinyXML,我們編寫了LTML的操作函數(shù)庫,包含基本的XML操作功能和相關的各個自然語言處理模塊的接口,并將LTML結構和各個處理模塊連接起來。LTP目前包含的10個模塊提供的都是DLL方式。
經(jīng)過框架實現(xiàn),現(xiàn)在的LTP程序庫的調用比較方便,C++編程人員只需要按照圖2中顯示的簡短的語句即可實現(xiàn)對既有文件的各種自然語言處理。在圖2.a中main2是動態(tài)鏈接庫唯一的接口函數(shù),三個參數(shù)分別是輸入文件地址,輸出文件地址,配置文件地址。圖2.b和圖2.c展示了配置文件的格式和每行的含義,其中第二行開始的各行分別表示斷句(split),詞法分析(irlas,分詞和詞性標注),命名實體識別(ne),依存句法分析(parser),全文詞義消歧(wsd),自動文摘(summary),文本分類(class),指代消解(cr),和淺層語義標注(srl)。第一行的”txt”表示把輸入文件當成原始文本文件進行處理,”xml”表示對符合LTML標準的已經(jīng)處理部分信息的xml文件進行后續(xù)處理。前者屬于常見的處理方式,后者屬于對LTP DLL的高級應用。高級應用可以實現(xiàn)人工標注和程序處理的理想結合。
LTP DLL中的9個現(xiàn)有模塊之間是有前后依賴關系的,比如命名實體識別之前必須有詞法分析的結果。全部的依賴關系如圖1所示。對于”txt”的處理方式,配置文件中的9個處理模塊之間依賴關系會被自動處理,用戶只需要在配置文件中通過0、1設定來選擇需要的處理結果。例如,如果配置文件中選取自動文摘而沒有選擇底層的詞法分析,那么接口函數(shù)內部也會進行自動的選擇先完成詞法分析功能。
這種框架將模塊的內部開發(fā)和外部調用完全分開。感興趣的同仁也可以根據(jù)LTML接口規(guī)范,編寫出性能更好的技術模塊,替換LTP中的相應模塊。比如用戶可以自己編寫一個符合我們命名實體標注規(guī)范和接口方式的命名實體識別DLL,然后放到對應文件夾中即可實現(xiàn)模塊的方便替換,隨后的DLL庫使用方式和先前完全一樣。不論是初入NLP領域的研究者還是經(jīng)驗豐富的研究人員,都能方便的應用這個程序庫,快速跨越開發(fā)分詞等基礎技術的階段,直接進入高層應用技術的研究。
二、語言技術平臺資源和程序庫共享步驟
特別說明:HIT-IRLab語言技術平臺共享資源的完整數(shù)據(jù)只免費提供給“高校和科研院所”用于科學研究,對于獨立個人或者商業(yè)公司的申請恕不免費提供。
1、HIT-IRLab將全部資源的10%樣本以及相關的規(guī)范和說明文檔放到主頁上;
2、如果您對這些資源有興趣,可以下載樣本、規(guī)范和說明文檔,決定是否需要該項資源100%的數(shù)據(jù);
3、如果確認希望獲得全部資源100%的數(shù)據(jù),請詳細填寫
《哈工大信息檢索研究室(HIT-IRLab)共享資源和程序庫協(xié)議》,并請您所在課題組的負責人直接將填好后的《協(xié)議》作為附件發(fā)郵件給
劉挺老師(
tliu@ir-lab.org),在協(xié)議中默認同意下述條款。
(1) 該資源或程序庫不用于商業(yè)目的;
(2) 不將資源或程序庫擴散給第三方;
(3) 在發(fā)表論文時聲明“使用了哈工大信息檢索研究室語言技術平臺中的的某資源或者某程序模塊”。
4、經(jīng)確認《協(xié)議》符合規(guī)格后,HIT-IRLab共享資源聯(lián)系人將在三個工作日以內把該項共享資源的全部數(shù)據(jù)通過Email寄給您,您可以免費用于研究;
5、在使用過程中,如果發(fā)現(xiàn)了問題,歡迎您直接到
HIT-IRLab-BBS IR資源版去討論,歡迎您批評指正,也歡迎您和我們一起豐富這些資源,加工這些資源;
6、這些資源和程序庫一旦有新的版本出來,將免費給各位使用者升級。
三、語料資源和程序庫下載說明
1、
全部共享資源樣例下載(10%)2、程序庫需要簽署協(xié)議才能共享,效果請參見
語言技術平臺的在線演示。
四、討論區(qū)
1、
哈工大信息檢索研究室論壇-語言技術平臺LTP版2、郵件列表 ltp-users,
http://ltp.ir-lab.org/mailman/listinfo/ltp-users五、升級
1、2006年9月5日,協(xié)議發(fā)布HIT_IRLab_LTP_Sharing_Package_Full_v1.rar
2、2007年1月11日,發(fā)布升級包
Update_v1.2_20070111.rar,同時協(xié)議發(fā)布
HIT_IRLab_LTP_Sharing_Package_Full_v1.2.rar,
升級說明