2017年10月13日-15日,“第十六屆全國計算語言學(xué)學(xué)術(shù)會議”(CCL 2017)暨“第五屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會”在江蘇南京舉行。作為國內(nèi)最大的自然語言處理專家學(xué)者的社團組織—中國中文信息學(xué)會(CIPS)的旗艦會議,CCL著重于中國境內(nèi)各類語言的計算處理,為傳播計算語言學(xué)最新的學(xué)術(shù)和技術(shù)成果提供了廣泛的交流平臺。國雙科技作為國內(nèi)大數(shù)據(jù)行業(yè)的領(lǐng)軍企業(yè)受邀出席了本次大會并參與了研討會的討論。國雙以自主研發(fā)的國雙云、大數(shù)據(jù)平臺、可視化平臺、國雙人工智能引擎(國雙先知)為基礎(chǔ),擁有自然語言處理、數(shù)據(jù)挖掘、關(guān)聯(lián)分析、實時分析、知識圖譜等多項技術(shù)能力,為各行業(yè)客戶提供智能化大數(shù)據(jù)解決方案。本次研討會中,國雙科技軟件工程師曾祥輝從技術(shù)的角度詳盡地闡述了知識圖譜的搭建原理及其在社會上的應(yīng)用方向?!敝R圖譜的來源,屬于知識工程的一部分。谷歌提出之后,國內(nèi)的公司也在跟進?!彼f道。知識圖譜技術(shù)日益成為人工智能的基礎(chǔ),它是機器理解自然語言和構(gòu)建知識網(wǎng)絡(luò)的重要方法。近年來,知識圖譜在司法領(lǐng)域的運用悄然興起,它幫助從業(yè)人員快速地在線檢索相關(guān)的法務(wù)內(nèi)容,從而提高法院審判工作質(zhì)量和效率。
國雙科技 曾祥輝在論壇上進行發(fā)言
自2015年起,國雙在司法大數(shù)據(jù)領(lǐng)域,通過引進法院、檢察院和律師事務(wù)所等優(yōu)秀的一線專業(yè)人員,緊密貼合司法業(yè)務(wù)需求,通過自然語言處理、數(shù)據(jù)挖掘和分布式計算等技術(shù),已經(jīng)開發(fā)出法律大數(shù)據(jù)分析系統(tǒng)、同案智能推送系統(tǒng)、知識產(chǎn)權(quán)案例指導(dǎo)服務(wù)平臺、智能語音庭審系統(tǒng)、智能文書生成系統(tǒng)、類案文書預(yù)警系統(tǒng)、司法數(shù)據(jù)可視化平臺、司法輿情系統(tǒng)等智能辦案輔助產(chǎn)品,廣泛應(yīng)用于全國四級法院系統(tǒng)。目前,國雙也已進入檢察領(lǐng)域,針對檢察院系統(tǒng)定制開發(fā)的相關(guān)產(chǎn)品從輔助辦案到輔助決策,將逐步完成其立體化、一體化的構(gòu)建。
國雙在司法領(lǐng)域能夠具有專業(yè)化的深耕能力,是依托國雙十余年來在商業(yè)智能、廣電新媒體、電子政務(wù)、工業(yè)互聯(lián)網(wǎng)等多個領(lǐng)域的大數(shù)據(jù)實踐經(jīng)驗與技術(shù)積累,得益于專業(yè)的技術(shù)、優(yōu)秀的數(shù)據(jù)分析處理能力、先進的大數(shù)據(jù)工具以及頂尖的行業(yè)認(rèn)知。
以下是演講實錄:
知識圖譜概述
知識圖譜的來源,屬于知識工程的一部分。谷歌提出之后,國內(nèi)的公司也在跟進。
這是在司法領(lǐng)域的案例,我們平常在文書中看到的是一個文本的表述,然后結(jié)構(gòu)化圖譜,這是在我們案件中要做的事情。
1、知識表達(dá)方式各優(yōu)缺點
文本是自然語言的表達(dá)方式,但是它對機器來說是非常難以理解,現(xiàn)在的NLP還不足以達(dá)到理解的程度。
數(shù)據(jù)庫是我們用的最多的數(shù)據(jù)儲存的方式,它的好處就是機器獲取信息的效率比較高,技術(shù)鏈比較成熟;它的缺點在于對復(fù)雜信息或者復(fù)雜關(guān)系的表達(dá)比較難,因為它的模式是既定的,要演化這種模式所花費的成本會比較高。同時它對復(fù)雜關(guān)系的多度查詢,也就是跨表查詢,三個表就達(dá)到幾十秒的時間,這個對于我們實時系統(tǒng)來說無法接受。
我們現(xiàn)在開始走向非關(guān)系型的數(shù)據(jù)庫,圖就是其中一種。圖的好處就是在于它非常適合復(fù)雜關(guān)系和信息的表達(dá)和查詢。它的模式是一種弱模式,儲存模式非常易演化,你要增加新的信息或者新的結(jié)點進去,可以隨時加。關(guān)系型數(shù)據(jù)庫多度查詢就無法輸出結(jié)果,但是在圖上始終能夠保持在秒級的速度,這是我們對實時系統(tǒng)一個非常重要的條件;它的缺點就是對于我們常用的一些圖數(shù)據(jù)庫,它的技術(shù)還沒有成熟。
2、應(yīng)用方向
· 信息搜索和可視化分析
· 為自然語言理解提供背景知識庫
· 問答系統(tǒng)、醫(yī)療診斷、金融反欺詐、電商搜索推薦
圖譜構(gòu)建及應(yīng)用技術(shù)
1、整體的構(gòu)建流程:
1.1 明確需求
· 通用或垂直領(lǐng)域
· 業(yè)務(wù)需求關(guān)注的實體類型、關(guān)系類型
· 層級分類體系
1.2 確定數(shù)據(jù)來源
· 通用圖譜:百科網(wǎng)站、互聯(lián)網(wǎng)文本等
· 領(lǐng)域圖譜:垂直網(wǎng)站(法律咨詢網(wǎng)站、文書網(wǎng))、期刊、書籍等。
1.3 知識抽取
· 實體抽取(NER)及關(guān)系(屬性)抽取
· 基于規(guī)則和詞典的方法:在詞法、句法分析基礎(chǔ)上,見效快;規(guī)則難以窮盡、瓶頸
· 基于統(tǒng)計的方法:帶標(biāo)語料難以獲得,尤其是垂直領(lǐng)域
· 二者結(jié)合的方法:半監(jiān)督學(xué)習(xí),bootstrapping,種子學(xué)習(xí)+pattern,效果有待優(yōu)化
· 神經(jīng)網(wǎng)絡(luò):LSTM+CRF
· 事件抽取:靜態(tài)轉(zhuǎn)向動態(tài),將事件作為實體的一種,拓寬實體關(guān)系,豐富圖譜。事件識別與分類:觸發(fā)詞、機器學(xué)習(xí)分類。事件要素的抽取,包括實體和屬性:語法、語義分析。
· 概念抽?。簩⒏拍钭R別引入,主要豐富圖譜中IsA的關(guān)系,建立層級關(guān)系。
1.4 知識融合
· 實體對齊:不同數(shù)據(jù)同一實體、關(guān)系或?qū)傩缘膶R,基于規(guī)則或者統(tǒng)計
· 關(guān)系(屬性)對齊:如出生日期與出生時間
· 知識驗證:來源可靠性,概率評估
1.5 知識推理
· 基于規(guī)則的推理:如父親的父親是爺爺
· 基于統(tǒng)計的推理:如圖中三角關(guān)系的推斷
基于規(guī)則的推理:假設(shè)A的父親是B,B的父親是C,但A和C的關(guān)系沒有儲存,或者在已有的信息是沒有獲取到,怎么辦呢?
第一種方法,可以通過人給圖譜做一些規(guī)則,如“父親的父親是爺爺”,我們說A的父親是B,B的父親C,我們就可以得到這個關(guān)系,A的爺爺是C。
第二種方法,基于統(tǒng)計的方法,比如我們現(xiàn)有的圖譜中已經(jīng)存在很多三角關(guān)系,通過很多三角關(guān)系的實例,讓機器學(xué)習(xí)到規(guī)則“父親的父親是爺爺”,得到A和C的關(guān)系。
1.6 知識分布式表示
我們可以把知識圖譜的關(guān)系表示成一個向量,向量之間的相似度可以通過一些方法來計算,可以計算相似度,做一些融合,也可做一些推薦。
2、應(yīng)用方向:
這是知識圖譜應(yīng)用到的一些方向,大概都差不多,可能會涉及到實體鏈接、關(guān)系識別和路徑推理。問答系統(tǒng),它最重要的一點是意圖識別和語義分析?,F(xiàn)在百度為什么只能識別某一類型的問題而有些問題就識別不了,因為他們做了一些模板的問題。
總結(jié)
第一點,面向業(yè)務(wù)需求,決定用什么技術(shù)。我們做工程或者做項目跟做研究有點不同,知識圖譜的確非常有用,但是你的業(yè)務(wù)或許根本用不到這個技術(shù)。
第二點,工程性質(zhì)及快速迭代,粒度有大到小。我們在構(gòu)建知識圖譜的過程中發(fā)現(xiàn)這個度非常難以控制,因為要做到實體層和概念層是非常難的。
第三點,有效果的技術(shù)就是最好的技術(shù)。不用去拘泥于非得用什么高深的技術(shù)和最前沿的技術(shù),這和做學(xué)術(shù)研究不一樣。
第四點,重視人工協(xié)作的力量。基于維基百科和百度百科的知識抽取,它們的基礎(chǔ)是什么?就是大量的網(wǎng)民朋友們無私的奉獻,都是人工編輯出來的。
這是一些參考材料,有興趣的可以去看:
· 從語義網(wǎng)到知識圖譜——語義技術(shù)工程化的回顧與反思
http://www.wtoutiao.com/p/181x8bc.html
· 降低知識圖譜的構(gòu)造成本
http://weibo.com/p/1001603966996583691220
· 知識圖譜研究進展綜述
http://www.360doc.com/content/17/0325/18/99071_640071618.shtml
· 知識圖譜與深度學(xué)習(xí)
http://blog.csdn.net/starzhou/article/details/71169636
聯(lián)系客服