首先介紹下知識(shí)圖譜的簡(jiǎn)史。1960年提出了語(yǔ)義網(wǎng)絡(luò),作為知識(shí)表示的一種方式,主要是幫助自然語(yǔ)言的理解,典型的就是WordNet,從不同維度表達(dá)詞與詞之間的語(yǔ)義關(guān)系。1980年提出了本體論,先定義一些本體再定義它們相關(guān)的關(guān)系,成熟的應(yīng)用就是專(zhuān)家系統(tǒng)。1989年提出了萬(wàn)維網(wǎng),然后1998年從超文本連接到語(yǔ)義網(wǎng)絡(luò),就是將每一個(gè)網(wǎng)頁(yè)加一個(gè)語(yǔ)義含義。到了2006年提出了鏈接數(shù)據(jù)的概念,將互聯(lián)網(wǎng)上的數(shù)據(jù)建立一些聯(lián)系,如姚明的頁(yè)面出現(xiàn)他妻子葉莉的信息,會(huì)給“葉莉”加一個(gè)鏈接。在2012年Google提出了知識(shí)圖譜,目的是提升整個(gè)搜索效果。
知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念,以及他們之間的關(guān)聯(lián)關(guān)系。它的每一個(gè)實(shí)體用全局唯一確定的ID來(lái)標(biāo)識(shí),就如每個(gè)人都有一個(gè)身份證號(hào)碼;第二個(gè)就是用屬性-值對(duì)來(lái)刻畫(huà)實(shí)體的內(nèi)在特性,用關(guān)系來(lái)連接兩個(gè)實(shí)體,刻畫(huà)他們之間的關(guān)聯(lián)。如刻畫(huà)姚明:屬性-值<姚明 身 2.26米>,關(guān)系型<姚明 妻子 葉莉>。
從知識(shí)圖譜的一個(gè)發(fā)展史及其定義可以看出知識(shí)圖譜具有5個(gè)視角優(yōu)勢(shì),首先是Web視角,建?數(shù)據(jù)之間的語(yǔ)義鏈接、?持語(yǔ)義檢索,第二個(gè)就是NLP視角,對(duì)?本進(jìn)?結(jié)構(gòu)化語(yǔ)義抽取。然后就是KR視角(知識(shí)表示),利用計(jì)算機(jī)的符號(hào)表示和處理知識(shí)。再者就是AI視角,利用知識(shí)圖譜輔助理解人的語(yǔ)言,目前AI大部分是在垂直領(lǐng)域落地,會(huì)建立自己的知識(shí)庫(kù),幫助垂直領(lǐng)域人工智能的實(shí)施。DB視角,就是以圖的方式存儲(chǔ)知識(shí)。知識(shí)圖譜展開(kāi)其實(shí)是一個(gè)很大的知識(shí)網(wǎng)絡(luò),存儲(chǔ)時(shí)會(huì)利用各種的圖數(shù)據(jù)庫(kù)存儲(chǔ)。
目前知識(shí)圖譜應(yīng)用場(chǎng)景分為兩塊,一種是通用領(lǐng)域,一種是垂直領(lǐng)域。通用領(lǐng)域如Google的搜索領(lǐng)域,國(guó)內(nèi)的百度和搜狗也在搜索領(lǐng)域應(yīng)用;還有些聊天領(lǐng)域,如智能機(jī)器人、智能手表。這種應(yīng)用有一個(gè)特性就是依賴(lài)通用知識(shí)圖譜,構(gòu)建依賴(lài)國(guó)外維基百科,國(guó)內(nèi)有百度百科、搜狗百科,將頁(yè)面中結(jié)構(gòu)化數(shù)據(jù)抽取出來(lái)構(gòu)建知識(shí)圖譜來(lái)支撐通用領(lǐng)域的問(wèn)答和搜索。垂直領(lǐng)域應(yīng)用越來(lái)越多,如金融、電商、公共安全、農(nóng)業(yè)、電信等,如金融里面的反欺詐,公共安全領(lǐng)域的追捕犯罪分子。不管是通用領(lǐng)域還是垂直領(lǐng)域落地有幾個(gè)共性條件,第一個(gè)必須有一個(gè)結(jié)構(gòu)化的數(shù)據(jù),這個(gè)數(shù)據(jù)還要高質(zhì)量,盡可能的海量數(shù)據(jù);第二在數(shù)據(jù)基礎(chǔ)上會(huì)抽象出一個(gè)本體庫(kù),從本體層面去定義實(shí)體類(lèi)型,以及表示他們的關(guān)系,第三就是有可以利用數(shù)據(jù)和本體庫(kù)的智能應(yīng)用場(chǎng)景,依據(jù)知識(shí)圖譜具有的優(yōu)勢(shì)和現(xiàn)有條件來(lái)確定業(yè)務(wù)場(chǎng)景是否需要知識(shí)圖譜。目前知識(shí)圖譜支撐的領(lǐng)域有搜索、問(wèn)答、推薦、圖數(shù)據(jù)關(guān)系挖掘。
接下來(lái)講一下知識(shí)圖譜為什么能在貝殼找房中落地。首先我們有豐富的數(shù)據(jù)可以利用,從兩個(gè)維度數(shù)據(jù):結(jié)構(gòu)化和非結(jié)構(gòu)化。結(jié)構(gòu)化有樓盤(pán)字典,數(shù)據(jù)億級(jí)實(shí)體,10億級(jí)的三元組。覆蓋類(lèi)型有房源、客源、小區(qū)、學(xué)區(qū)、地鐵站、帶看、成交等數(shù)據(jù)。還有非結(jié)構(gòu)化數(shù)據(jù),經(jīng)紀(jì)人與用戶(hù)對(duì)話(huà)數(shù)據(jù),級(jí)別是億級(jí),主要是用戶(hù)找房、咨詢(xún)經(jīng)紀(jì)人、委托、帶看、成交過(guò)程中產(chǎn)生的對(duì)話(huà)數(shù)據(jù)。第三種是用戶(hù)問(wèn)答及百科文章,量級(jí)是100萬(wàn) ,非結(jié)構(gòu)化數(shù)據(jù)主要是用戶(hù)關(guān)于房產(chǎn)領(lǐng)域的問(wèn)答及百科知識(shí)數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)樓盤(pán)字典覆蓋類(lèi)型有房源、客源、經(jīng)紀(jì)人體系,還會(huì)涉及些客戶(hù)和業(yè)主,都會(huì)作為鏈家的參與人。
然后講一下為什么要在貝殼找房中落地知識(shí)圖譜,因?yàn)樨悮ふ曳坑胸S富的應(yīng)用場(chǎng)景,如智能搜索&推薦:提升用戶(hù)的找房效率; 數(shù)據(jù)可視化:分析用戶(hù)行為,挖掘數(shù)據(jù)之間關(guān)聯(lián), 智能問(wèn)答:做經(jīng)紀(jì)人的助手潛在客戶(hù)找房咨詢(xún)。右邊的圖是貝殼找房業(yè)務(wù)中的商業(yè)轉(zhuǎn)化漏斗,這個(gè)過(guò)程涉及用戶(hù)找房、到咨詢(xún)經(jīng)紀(jì)人、委托經(jīng)紀(jì)人帶看,最后成交幾個(gè)環(huán)節(jié)。我們的目標(biāo)就是幫助獲得更多更優(yōu)質(zhì)的商機(jī),以及提升他們的服務(wù)能力,幫助用戶(hù)快速找到合適的房子,了解購(gòu)房知識(shí),拓寬這個(gè)漏斗圖。
在智能搜索方面借助知識(shí)圖譜AI Web視角, 提升搜索意圖理解;在智能推薦方面利用知識(shí)圖譜的AI DB視角;推薦相關(guān)的房子,在智能問(wèn)答方面利用知識(shí)圖譜NLP AI視角,回答經(jīng)紀(jì)人有關(guān)房子的問(wèn)答。右圖我們可以看到,在搜索一個(gè)學(xué)校時(shí),我們可以看到與這個(gè)學(xué)校相關(guān)聯(lián)的房源和學(xué)區(qū)等實(shí)體信息。
接下來(lái)講一下貝殼找房中的知識(shí)圖譜落地應(yīng)用。一個(gè)知識(shí)圖譜系統(tǒng)構(gòu)建流程通常有五個(gè)部分,第一個(gè)是定義具體的業(yè)務(wù)問(wèn)題,第二個(gè)數(shù)據(jù)搜集與處理,第三個(gè)是知識(shí)圖譜的設(shè)計(jì),第四就是知識(shí)圖譜的存儲(chǔ),最后是應(yīng)用開(kāi)發(fā)及系統(tǒng)評(píng)估。
我們的知識(shí)圖譜系統(tǒng)架構(gòu)有五層,在數(shù)據(jù)層會(huì)有外網(wǎng)數(shù)據(jù)爬蟲(chóng)平臺(tái),大部分?jǐn)?shù)據(jù)是內(nèi)網(wǎng)數(shù)據(jù),數(shù)據(jù)分為兩塊結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。處理層有預(yù)處理、歸一化、數(shù)據(jù)融合以及推理計(jì)算。預(yù)處理方面結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換、半結(jié)構(gòu)化數(shù)據(jù)抽取、文本關(guān)系抽取、數(shù)據(jù)標(biāo)注,在處理完后會(huì)做一些實(shí)體名歸一、屬性歸一、屬性值歸一。數(shù)據(jù)融合中會(huì)做一個(gè)實(shí)體對(duì)齊,因?yàn)閷?shí)體會(huì)來(lái)自于不同的源,但是表達(dá)的是一個(gè)實(shí)體,可能存在交集或并集,或者一個(gè)屬性有多個(gè)值,會(huì)做一個(gè)屬性值的決策。推理計(jì)算會(huì)基于現(xiàn)有的數(shù)據(jù)做一些規(guī)則推理補(bǔ)充、pagerank、排序字段。整個(gè)生成后會(huì)形成一個(gè)知識(shí)圖譜,建立ES索引或者neo4j索引,然后也會(huì)在hdfs或者h(yuǎn)ive里面進(jìn)行備份,支持不同業(yè)務(wù)方調(diào)用數(shù)據(jù)。應(yīng)用層有IM智能助?、智能客服、 智能搜索、圖譜可視化。左邊是我們的模式層,從類(lèi)型定義、屬性定義,最后構(gòu)建本體庫(kù)。本體庫(kù)會(huì)支撐數(shù)據(jù)層、存儲(chǔ)層、應(yīng)用層。
知識(shí)圖譜構(gòu)建第一步工作就是本體構(gòu)建,通過(guò)業(yè)務(wù)中涉及的問(wèn)題抽象出相應(yīng)的類(lèi)型,我們抽象出四大類(lèi)型交通、地點(diǎn)、人、組織機(jī)構(gòu),下面會(huì)再劃分小的類(lèi)型,大概有三十多種類(lèi)型。
構(gòu)建本體庫(kù)使用構(gòu)建工具protégé,主要有三塊,第一塊是class,第二部分是objects,這是個(gè)關(guān)系型的屬性,描述兩個(gè)實(shí)體關(guān)系的屬性。Data property是內(nèi)在屬性,描述實(shí)體本身的屬性。正常本體庫(kù)構(gòu)建是自下而上,從數(shù)據(jù)出發(fā)。但在我們的業(yè)務(wù)中會(huì)需要一些自自定義的屬性,加入一些特殊的約束,因此采用自下而上與自上而下相結(jié)合構(gòu)建本體庫(kù)。在構(gòu)建的過(guò)程中也加入了對(duì)屬性關(guān)系的自定義約束,如是否加密、顯示順序、是否歸一化等約束。
接下來(lái)介紹下知識(shí)圖譜在IM智能助手中落地,應(yīng)用場(chǎng)景是更快解決用戶(hù)問(wèn)題,提升經(jīng)紀(jì)人的作業(yè)效率。依據(jù)歷史經(jīng)紀(jì)人與用戶(hù)聊天數(shù)據(jù)進(jìn)行了一個(gè)分類(lèi),用戶(hù)主要問(wèn)五種類(lèi)型問(wèn)題,75%是于房屋詳情問(wèn)題、10%是約帶看、6%是貸款、3%是推薦。右圖是整體75%問(wèn)題中top20的意圖占比,問(wèn)的最多的是學(xué)區(qū)房問(wèn)題。從0到1做這個(gè)事情,我們優(yōu)先解決了75%房屋詳情問(wèn)題。
針對(duì)這些問(wèn)題進(jìn)行數(shù)據(jù)搜集與處理流程,首先從樓盤(pán)字典中獲取所需的房源數(shù)據(jù),然后進(jìn)入知識(shí)圖譜構(gòu)建流程,整個(gè)統(tǒng)計(jì)完成后會(huì)計(jì)算其覆蓋率,最后進(jìn)入ES索引里面,最后會(huì)判斷數(shù)據(jù)是否符合預(yù)期,符合后才會(huì)建立索引,也會(huì)對(duì)異常進(jìn)行一些監(jiān)控報(bào)警。
IM智能助手房源詳情檢索架構(gòu),首先用戶(hù)問(wèn)了一個(gè)問(wèn)題,經(jīng)過(guò)NLU模塊中的分詞、然后通過(guò)NER模塊,DA做實(shí)體解析,然后意圖識(shí)別。意圖識(shí)別后進(jìn)入檢索模塊,生成SQL,通過(guò)ES索引查詢(xún)字段,查詢(xún)到的字段進(jìn)行結(jié)果的生成。結(jié)果生成階段有個(gè)話(huà)術(shù)設(shè)計(jì),讓回答結(jié)果更人性化,還有個(gè)結(jié)果拼接。后期會(huì)針對(duì)不同經(jīng)紀(jì)人自己定義話(huà)術(shù)模板。
IM中還有關(guān)于知識(shí)的問(wèn)答,但是會(huì)存在有些問(wèn)題答案不匹配,不是很精準(zhǔn),那么如何解決呢。我們對(duì)用戶(hù)經(jīng)常問(wèn)的問(wèn)題進(jìn)行了分類(lèi),用知識(shí)圖譜方式將問(wèn)答對(duì)表示成三元組和事件三元組。遇到一個(gè)事情該怎么辦和為什么,得到how和why事件型三元組;還有實(shí)體三元組,分為實(shí)體是什么和屬性是什么,定義為what和ep型。第三種是區(qū)別性的,which型:實(shí)體A和實(shí)體B有什么區(qū)別。通過(guò)歷史log隨機(jī)抽樣,符合三元組模式10%。
如何精準(zhǔn)理解用戶(hù)搜索意圖,找到精準(zhǔn)答案。如“公積金貸款條件?”我們會(huì)把公積金作為一個(gè)實(shí)體,將條件作為一個(gè)屬性,這種就是EP型,還有“砌體結(jié)構(gòu)墻是什么?”這種就是what型。“簽錯(cuò)定金類(lèi)型了怎么辦?”,將“簽錯(cuò)定金”定義為event,“怎么辦”定義為屬性,這種歸為how型。是一種基于語(yǔ)義的搜索而不是傳統(tǒng)基于關(guān)鍵詞或者語(yǔ)義相似度做計(jì)算。
上圖是基于三元組的精準(zhǔn)問(wèn)答,分為online和offline。offline部分我們會(huì)離線(xiàn)的去從FAQ( Frequently Asked Questions,常見(jiàn)問(wèn)答庫(kù))里面做三元組的抽取和挖掘工作,將歷史FAQ中符合三元組的問(wèn)題抽取出相應(yīng)的三元組。Online部分同樣一句用戶(hù)query去識(shí)別意圖,進(jìn)入知識(shí)庫(kù)進(jìn)行相應(yīng)的檢索,最后返回一個(gè)唯一符合的三元組形成答案。當(dāng)然挖掘得到的三元組需要進(jìn)行人工標(biāo)注,目的就是要確保回答的精度和知識(shí)庫(kù)的質(zhì)量。
知識(shí)圖譜還可以在很多場(chǎng)景進(jìn)行應(yīng)用優(yōu)化,我們建立知識(shí)圖譜后,可以通過(guò)檢索挖掘兩個(gè)實(shí)體間的關(guān)系,通過(guò)挖掘同一用戶(hù)不同搜索間的關(guān)系,可以更好地做搜索優(yōu)化、搜索召回優(yōu)化。當(dāng)我們搜某一個(gè)小區(qū)附近的房子,但是沒(méi)有相應(yīng)房源,推薦小區(qū)附近小區(qū)的房子。
上圖是我們自己研發(fā)的圖數(shù)據(jù)可視化平臺(tái),將貝殼找房所有涉及的實(shí)體進(jìn)行可視化展示。目的是展示內(nèi)部數(shù)據(jù)間關(guān)聯(lián)關(guān)系,后期讓C端用戶(hù)能夠更好的找房子而不是直白的搜索列表,返回什么就看什么,可以主動(dòng)的在知識(shí)圖譜知識(shí)網(wǎng)絡(luò)中漫游。
總結(jié)下今天分享的內(nèi)容,首先是知識(shí)圖譜優(yōu)勢(shì)五大視角:Web NLP KR AI DB。 知識(shí)圖譜落地充分必要條件三個(gè)方面:數(shù)據(jù) 本體庫(kù) 智能應(yīng)用場(chǎng)景。貝殼找房中知識(shí)圖譜落地,1.房產(chǎn)行業(yè)數(shù)據(jù): 結(jié)構(gòu)化樓盤(pán)字典數(shù)據(jù) 非結(jié)構(gòu)化的用戶(hù)文本數(shù)據(jù)房產(chǎn);2.行業(yè)本體庫(kù):支持圖譜數(shù)據(jù)構(gòu)建 智能應(yīng)用;3.智能應(yīng)用:智能搜索 智能問(wèn)答 智能推薦 圖譜數(shù)據(jù)可視化。
最后和大家分享下我們實(shí)踐過(guò)程遇到的問(wèn)題:1.構(gòu)建本體庫(kù)需要房產(chǎn)行業(yè)專(zhuān)家的加入及規(guī)范,2.房產(chǎn)行業(yè)實(shí)體詞類(lèi)型、實(shí)體詞需要規(guī)范化及挖掘,大量非結(jié)構(gòu)文本數(shù)據(jù)亟待結(jié)構(gòu)化。未來(lái)的挑戰(zhàn):打造出房產(chǎn)領(lǐng)域最權(quán)威的知識(shí)圖譜。提升B端智能應(yīng)用效果,逐步推向C端。 將知識(shí)圖譜深入結(jié)合貝殼找房業(yè)務(wù)場(chǎng)景深入結(jié)合,將圖譜與地圖找房、VR找房應(yīng)用相結(jié)合。
作者介紹
王賀青,貝殼找房高級(jí)知識(shí)圖譜工程師,現(xiàn)負(fù)責(zé)貝殼找房房產(chǎn)知識(shí)圖譜的研發(fā)及落地應(yīng)用。曾就職于搜狗,參與搜狗搜索通用領(lǐng)域知識(shí)圖譜研發(fā)及應(yīng)用。
聯(lián)系客服