知識(shí)圖譜對(duì)于產(chǎn)品經(jīng)理的工作有著很大的幫助,能夠建立更系統(tǒng)的設(shè)計(jì)流程,其應(yīng)用核心在于深刻理解業(yè)務(wù)。
知識(shí)圖譜概念開始由谷歌公司(Google)提出,為了提升搜索引擎返回的答案質(zhì)量,通過知識(shí)圖譜的構(gòu)建,去發(fā)現(xiàn)用戶查詢文本背后的語義信息,從而返回更準(zhǔn)確的信息。
我們以李小龍為例,如果不用知識(shí)圖譜,用戶搜索“李小龍的兒子是誰”時(shí),只能通過關(guān)鍵詞搜索的方式分析網(wǎng)頁中關(guān)鍵詞包含“李小龍”“兒子”等關(guān)鍵詞的網(wǎng)頁。
但是,通過知識(shí)圖譜搜索,可以精確搜索出準(zhǔn)確答案,我們以搜狗搜索為例(見圖1.1-1):
圖1.1-1 搜狗搜索結(jié)果
我們?cè)谒阉鳌袄钚↓埖膬鹤邮钦l”的時(shí)候,首先會(huì)對(duì)這個(gè)文本進(jìn)行語義識(shí)別,識(shí)別出來一個(gè)實(shí)體“李小龍”一個(gè)關(guān)系“兒子”,然后通過關(guān)系圖譜就會(huì)精確查到實(shí)體與關(guān)系的指向(見圖1.1-2),最終完成精確的檢索。
通過知識(shí)圖譜的輔助,搜索引擎通過背后的語義分析,返回更加精確,并且是結(jié)構(gòu)化的數(shù)據(jù)。
圖1.1-2李小龍的關(guān)系圖譜
追本溯源知識(shí)圖譜起源于上世紀(jì)60年代的語義網(wǎng)絡(luò)。
語義網(wǎng)絡(luò)(Semantic Network),是一種以網(wǎng)絡(luò)格式表達(dá)人類知識(shí)構(gòu)造的形式。它是由結(jié)點(diǎn)和結(jié)點(diǎn)之間的弧組成,結(jié)點(diǎn)表示概念(事件、事物),弧表示它們之間的關(guān)系。
語義網(wǎng)絡(luò)是一種比較早的知識(shí)表達(dá)形式,它是一個(gè)帶標(biāo)示的有向圖,各個(gè)節(jié)點(diǎn)表示知識(shí)中的物體、概念、實(shí)物等,點(diǎn)與點(diǎn)之間的鏈接。
“誰是誰的什么”的指向性關(guān)聯(lián)關(guān)系,與語義網(wǎng)絡(luò)類似,在知識(shí)圖譜領(lǐng)域,是一些相互連接的實(shí)體以及屬性構(gòu)成。
所以,知識(shí)圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。
因此從數(shù)據(jù)角度來看,知識(shí)圖譜通過對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理、抽取、整合,轉(zhuǎn)化成“實(shí)體-關(guān)系-實(shí)體”(見圖1.1-3)的三元組,然后聚合大量知識(shí),實(shí)現(xiàn)快速的響應(yīng)。
從應(yīng)用層面來看,知識(shí)圖譜是用來描述真實(shí)世界中存在的實(shí)體,以及他們之間的關(guān)系。
圖1.1-3 三元組案例
從不同視角,基于圖1.1-3的案例,我們來看一下知識(shí)圖譜在不同技術(shù)的理解。
從互聯(lián)網(wǎng)視角來看,跟文本之間的超鏈接一樣,通過圖譜建立數(shù)據(jù)之間的語義鏈接。比如,張三的妻子是李四,通過圖數(shù)據(jù)方式支持實(shí)體、實(shí)體之間的關(guān)系的檢索。
從自然語言處理的角度來看,如何從非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中提取數(shù)據(jù),抽取其中的語義。比如,我們拿到張三的簡(jiǎn)歷,簡(jiǎn)歷上寫出生地是河北,通過提取規(guī)則來獲取到“張三”、“河北”這兩個(gè)實(shí)體,以及“籍貫”這個(gè)關(guān)系,并機(jī)構(gòu)化存儲(chǔ)起來。
從人工智能視角來看,如何利用知識(shí)圖譜來輔助理解人類的語言,并進(jìn)行相應(yīng)關(guān)系的查詢和機(jī)器的推理。
我們了解了知識(shí)圖譜的概念,那么知識(shí)圖譜是如何存儲(chǔ)知識(shí)數(shù)據(jù)以及如何呈現(xiàn)出來的?作為產(chǎn)品經(jīng)理理解知識(shí)圖譜的表示與存儲(chǔ)對(duì)我們有什么意義呢?這些問題將在本章中進(jìn)行解釋與回答。
1.2.1 知識(shí)圖譜的表示
所謂知識(shí)圖譜的表示,是指計(jì)算機(jī)通過何種方式來表達(dá)真實(shí)世界中包含的知識(shí)數(shù)據(jù)。
知識(shí)圖譜本質(zhì)上就是語義網(wǎng)絡(luò)的知識(shí)庫,因此我們可以簡(jiǎn)單把知識(shí)圖譜的表示理解為多關(guān)系圖,基于向量空間學(xué)習(xí)的分布式知識(shí)表示。
我們知道圖是由點(diǎn)和邊來構(gòu)成的。那在知識(shí)圖譜中,用“實(shí)體”來表達(dá)圖中的點(diǎn),用“關(guān)系”來表單不同點(diǎn)之間的聯(lián)系,例如圖1.1-3,其中的圓形的代表實(shí)體,點(diǎn)與點(diǎn)之間的連線是叫關(guān)系。
實(shí)體是現(xiàn)實(shí)世界中的事物,比如人名、地名、公司名、藥品名稱、專業(yè)知識(shí)概念、在某些場(chǎng)景下年齡、性別等都可以作為實(shí)體;關(guān)系是不同實(shí)體之間的真實(shí)聯(lián)系,比如李四是張三的妻子,張三的籍貫是河北等,里面的妻子、籍貫都是真實(shí)世界中的關(guān)系。
在現(xiàn)實(shí)世界社交網(wǎng)絡(luò)中,我們可以找到好多實(shí)體,比圖某某人、某某公司、某某人手機(jī)號(hào)、某某公司注冊(cè)地址等都可以作為實(shí)體數(shù)據(jù)。實(shí)體與實(shí)體之間的關(guān)系也不是一成不變的,比如人與工作崗位的關(guān)系,并不是一成不變的,是根據(jù)人的工作年限,努力程度,其工作崗位會(huì)有變動(dòng)。因此人與工作崗位的關(guān)系中可以有曾任職、現(xiàn)任職等關(guān)系,案例看圖1.2-1。
圖1.2-1 某企業(yè)信用查詢APP關(guān)于企業(yè)關(guān)系的圖譜
從圖1.2-1中我們可以看到有如下“實(shí)體-關(guān)系-實(shí)體”:
某某企業(yè)與某某企業(yè)間的參股關(guān)系;
某某企業(yè)與某某人間的職位(總經(jīng)理、董事長(zhǎng)、董事等)關(guān)系;
某某企業(yè)與某某人間的參股關(guān)系。
因此我們可以從圖中得知某某人、某某企業(yè)是實(shí)體;參股、總經(jīng)理、董事長(zhǎng)、監(jiān)事等是關(guān)系。
知識(shí)圖譜處理表達(dá)的實(shí)體與實(shí)體間的關(guān)三元組是知識(shí)圖譜的核心。除此之外,可以表達(dá)實(shí)體的某些屬性,可以通過屬性圖來表達(dá),比如某某人的出生日期、比如某某人的曾用名、比如某某人的介紹等。
因此,知識(shí)圖譜整體來說,是通過圖數(shù)據(jù)的形式,來表達(dá)實(shí)體與實(shí)體間的關(guān)系,實(shí)體的相關(guān)屬性的值。
1.2.2 知識(shí)圖譜的存儲(chǔ)
通過知識(shí)圖譜的表示,可以很直觀看到知識(shí)圖譜包含的知識(shí)數(shù)據(jù),對(duì)于理解知識(shí)圖譜的存儲(chǔ)有很好的促進(jìn)作用。
知識(shí)圖譜主要有兩種存儲(chǔ)方式:
基于RDF的存儲(chǔ);
基于圖數(shù)據(jù)庫的存儲(chǔ)。
由于RDF以三元組的方式來存儲(chǔ)數(shù)據(jù)而且不包含屬性信息,圖數(shù)據(jù)庫一般以屬性圖為基本的表示方式,常用Neo4j。因此所以實(shí)體和關(guān)系可以包含屬性,能更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景。
知識(shí)圖譜的原始數(shù)據(jù)類型一般來說有三類:
結(jié)構(gòu)化數(shù)據(jù):如關(guān)系數(shù)據(jù)庫;
非結(jié)構(gòu)化數(shù)據(jù):圖片、PDF、視頻、音頻、文本等;
半結(jié)構(gòu)化數(shù)據(jù):百科知識(shí)、JSON、XML等。
從以上數(shù)據(jù)中提取實(shí)體、關(guān)系、屬性以及屬性值。
做后臺(tái)產(chǎn)品經(jīng)理的,對(duì)關(guān)系型數(shù)據(jù)庫并不陌生,有人會(huì)問了,按照?qǐng)D1.1-3不一定通過知識(shí)圖譜通過關(guān)系圖譜也可以達(dá)到效果了,比如建一個(gè)人員基本信息表,建一個(gè)用戶間家庭關(guān)系,也可以查詢到,如圖1.2-2。
圖1.2-2 二維表關(guān)系表示
那么,知識(shí)圖譜圖數(shù)據(jù)存儲(chǔ)方式到底跟關(guān)系型數(shù)據(jù)庫道理有什么區(qū)別呢?
其實(shí),關(guān)系型數(shù)據(jù)存儲(chǔ)方式與圖數(shù)據(jù)存儲(chǔ)方式之間的作用不是非此即彼的,是相互配合使用的,根據(jù)不同的業(yè)務(wù)場(chǎng)景來使用。
圖數(shù)據(jù)多關(guān)系的建模,關(guān)系型數(shù)據(jù)庫是不同表之間的關(guān)系,如果關(guān)系太多對(duì)關(guān)系型數(shù)據(jù)庫并不是很友好。在圖數(shù)據(jù)庫中可以把籍貫、職業(yè)拆分出來一個(gè)關(guān)系。
不僅如此,如果我們把身份證號(hào)作為一個(gè)實(shí)體,那么姓名、曾用名等都可以查分出來一個(gè)關(guān)系,這個(gè)是關(guān)系型數(shù)據(jù)庫難以做到的。
因此。圖數(shù)據(jù)庫更加適用于通過實(shí)體的分析找到對(duì)業(yè)務(wù)有力的更多的關(guān)系。比如,我們把籍貫的地址可以拆出來多個(gè)關(guān)系,現(xiàn)居住地、曾居住地、出生地等,同樣一個(gè)實(shí)體(河北)其實(shí)可以拆出來三種關(guān)系來滿足不同業(yè)務(wù)場(chǎng)景。
因此,知識(shí)圖譜更加關(guān)注關(guān)系,更加關(guān)注一些隱含的關(guān)系、序時(shí)變動(dòng)的動(dòng)態(tài)關(guān)系。當(dāng)然,多關(guān)系的查詢圖數(shù)據(jù)的性能更好。
關(guān)系型數(shù)據(jù)庫更是對(duì)數(shù)據(jù)的記錄,更多適用于一些業(yè)務(wù)流程數(shù)據(jù),比如電商里面的訂單銷售數(shù)據(jù)、合同數(shù)據(jù)、結(jié)算數(shù)據(jù)等,能夠記錄、反應(yīng)、分析基本業(yè)務(wù)要求與場(chǎng)景。
而圖數(shù)據(jù)更多是配合業(yè)務(wù)要求,去輔助業(yè)務(wù),比如訂單銷售數(shù)據(jù)中記錄了用戶買的什么產(chǎn)品這一事實(shí),我們可以通過統(tǒng)計(jì)功能做一些業(yè)務(wù)分析。
但是如果做一些個(gè)性化推薦工作,我們可以通過圖數(shù)據(jù)的方式,通過用戶信息和產(chǎn)品某些特性之間建立關(guān)系,可以為客戶提供個(gè)性化的推薦方案——也就是說圖數(shù)據(jù)存儲(chǔ)方式可以幫助系統(tǒng)實(shí)現(xiàn)推理的功能。
比如,姚明是一個(gè)籃球運(yùn)動(dòng)員,我們知道籃球運(yùn)動(dòng)員有一個(gè)屬性就是身材都比較高。當(dāng)你問系統(tǒng)姚明身高的時(shí)候,系統(tǒng)可以通過姚明與籃球遠(yuǎn)動(dòng)員的關(guān)系,通過籃球運(yùn)動(dòng)員的屬性來推理出姚明身高——這也是圖數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)應(yīng)用的一個(gè)最重要的作用。
1.2.3 理解知識(shí)圖譜的表示和存儲(chǔ)對(duì)產(chǎn)品經(jīng)理的意義
對(duì)于理解知識(shí)圖譜的表示和存儲(chǔ)對(duì)產(chǎn)品經(jīng)理最重要的意義就是根據(jù)業(yè)務(wù)需求,定義實(shí)體、關(guān)系、屬性以及屬性值。
做后臺(tái)產(chǎn)品經(jīng)理我們都知道,我們?cè)谠O(shè)計(jì)產(chǎn)品功能的時(shí)候,有四個(gè)基本對(duì)象需要設(shè)計(jì):
存儲(chǔ)數(shù)據(jù)的字段;
梳理業(yè)務(wù)的流程;
規(guī)則設(shè)計(jì)(業(yè)務(wù)規(guī)則、輸入規(guī)則、邏輯規(guī)則等);
頁面交互的設(shè)計(jì)。
其中字段設(shè)計(jì)是其中最基礎(chǔ)的部分,是我們后臺(tái)設(shè)計(jì)最核心的部分。
首先,我們?cè)O(shè)計(jì)后臺(tái)系統(tǒng)展現(xiàn)的表單信息來源于字段設(shè)計(jì)、業(yè)務(wù)流程中體現(xiàn)的業(yè)務(wù)信息載體是字段設(shè)計(jì)、規(guī)則設(shè)計(jì)中相關(guān)規(guī)則控制對(duì)象也是字段,因此設(shè)計(jì)好字段是后臺(tái)產(chǎn)品設(shè)計(jì)最基礎(chǔ)也是最核心的工作。
字段維度涉及如下維度:
字段所屬對(duì)象,就像后臺(tái)按照模塊分類一樣 ,字段也有所屬對(duì)象的分類,比如商品、用戶、訂單、結(jié)算單、提現(xiàn)單、紅包、獎(jiǎng)勵(lì)券、客戶等,這些對(duì)象是字段承載的載體。
字段值類型,字段值類型常用的包括字符串(比較常用)、枚舉(審核狀態(tài)、是否項(xiàng)目等)、日期時(shí)間、浮點(diǎn)數(shù)(金額類型,定義小數(shù)點(diǎn)后位數(shù),小數(shù)點(diǎn)前位數(shù))、數(shù)字(正整數(shù)、是否可以為負(fù)等)。
字段是否必填,這個(gè)是指字段在寫入值的時(shí)候是必須有值的還是可以為空,比如新增一個(gè)商品,商品編碼、商品名稱是必填,商品關(guān)鍵字可以為空等。
字段值來源,字段值來源是指字段在寫入的時(shí)候來源于哪里,常見的包括以下幾種:來源于輸入(就是通過前段某一個(gè)頁面通過用戶輸入或是選擇獲取的值),系統(tǒng)自動(dòng)生成(比如創(chuàng)建時(shí)間、業(yè)務(wù)編號(hào)等字段);來源于其他數(shù)據(jù)(比如訂單里面的商品編碼字段,就來源商品里面的商品編碼字段)。
字段值長(zhǎng)度,字段值長(zhǎng)度是存儲(chǔ)在數(shù)據(jù)庫中值的最長(zhǎng)長(zhǎng)度是多少,比如字符串類型,可以規(guī)定長(zhǎng)度32位,這個(gè)一般根據(jù)業(yè)務(wù)需求制定的一個(gè)最長(zhǎng)長(zhǎng)度,便于開發(fā)設(shè)計(jì)表結(jié)構(gòu)。當(dāng)你的數(shù)據(jù)項(xiàng)很清晰的時(shí)候,對(duì)于開發(fā)人員的理解業(yè)務(wù)、設(shè)計(jì)都有很好的促進(jìn)作用。
我們做任何功能的設(shè)計(jì),對(duì)數(shù)據(jù)的設(shè)計(jì)永遠(yuǎn)是第一步。
對(duì)知識(shí)圖譜也一樣,我們要明確出來儲(chǔ)存哪些實(shí)體,建立哪些關(guān)系,哪些是屬性,屬性值是什么。
比如,防欺詐系統(tǒng)中,如果發(fā)現(xiàn)兩個(gè)不同的用戶擁有了同一個(gè)手機(jī)號(hào)或是居住地址,并且兩者沒有任何家庭關(guān)系的時(shí)候,我們就認(rèn)為這是一個(gè)具有欺詐行為的用戶(因?yàn)橐话阌脩艉褪謾C(jī)號(hào)是一對(duì)多的,手機(jī)號(hào)對(duì)用戶是一對(duì)一的,一個(gè)手機(jī)號(hào)不太可能給兩個(gè)用戶使用)。
這時(shí)我們會(huì)把手機(jī)號(hào)、姓名、身份證號(hào)、地域作為實(shí)體,然后建立聯(lián)系方式、身份信息隸屬、居住地、家庭關(guān)系等相關(guān)關(guān)系,通過手機(jī)號(hào)、姓名的聯(lián)系方式關(guān)系查詢一目了然。
因此,圖譜的使用也離不開產(chǎn)品經(jīng)理對(duì)業(yè)務(wù)的深入理解,在深入理解的前提下,正確識(shí)別實(shí)體、關(guān)系、屬性等圖數(shù)據(jù)基本存儲(chǔ)方式。對(duì)于開發(fā)對(duì)業(yè)務(wù)的理解、開發(fā)的設(shè)計(jì)也是有相同的促進(jìn)作用。
所以,理解知識(shí)圖譜的存儲(chǔ)與表示,能更好幫助產(chǎn)品經(jīng)理定義知識(shí)圖譜,定義實(shí)體、關(guān)系、屬性以及屬性值。
我們了解了什么是知識(shí)圖譜,知識(shí)圖譜的數(shù)據(jù)機(jī)構(gòu)。
那下面我們簡(jiǎn)單描述一下如何構(gòu)建知識(shí)圖譜,以及了解如何構(gòu)建知識(shí)圖譜對(duì)我們產(chǎn)品經(jīng)理有什么幫助。
1.3.1 知識(shí)圖譜的邏輯架構(gòu)
在了解知識(shí)圖譜構(gòu)建流程之前,我們先了解一下其邏輯架構(gòu)。
知識(shí)圖譜在邏輯上分為模式層和數(shù)據(jù)層:
模式層:是知識(shí)圖譜的核心,是構(gòu)建在數(shù)據(jù)層之上,也就是定義通用概念為實(shí)體、實(shí)體鍵的關(guān)系,也成構(gòu)建本體庫,也就是指的實(shí)體-關(guān)系-實(shí)體,實(shí)體-屬性-性值。
數(shù)據(jù)層:是知識(shí)圖譜的事實(shí)數(shù)據(jù),以相關(guān)事實(shí)為單位進(jìn)行存儲(chǔ),比如張三——妻子——李四;張三——出生年份——1985等。
1.3.2 知識(shí)圖譜構(gòu)建流程
知識(shí)圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ),知識(shí)圖譜確定了本體庫,就需要對(duì)知識(shí)圖譜的數(shù)據(jù)進(jìn)行構(gòu)建。具體構(gòu)建過程包含3個(gè)階段:信息抽取、知識(shí)融合、知識(shí)加工。
1)信息抽取
從各種數(shù)據(jù)源中進(jìn)行實(shí)體識(shí)別、關(guān)系識(shí)別,從而抽取實(shí)體、關(guān)系、屬性以及實(shí)體間的關(guān)系,屬性的值,完成本體的知識(shí)表達(dá),具體可以參照前文關(guān)于知識(shí)庫的表達(dá)部分。
對(duì)于知識(shí)圖譜來說,數(shù)據(jù)源我們知道有結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)渠道一般是三種:
業(yè)務(wù)的關(guān)系數(shù)據(jù),這些數(shù)據(jù)通常包含在公司內(nèi)數(shù)據(jù)庫中;一般是結(jié)構(gòu)化數(shù)據(jù),或者是系統(tǒng)交互中Jison數(shù)據(jù),雖然沒有結(jié)構(gòu)化,但是仍然可以通過功能進(jìn)行存儲(chǔ),這種數(shù)據(jù)一般定義好本體庫可以直接使用;
網(wǎng)上公開發(fā)布的可以抓取的數(shù)據(jù),通常以網(wǎng)頁形式存在,這種一般要通過爬蟲技術(shù),通過本體庫相關(guān)關(guān)鍵詞進(jìn)行數(shù)據(jù)的爬取并結(jié)構(gòu)化;
相關(guān)合同、文件等,比如一些保險(xiǎn)合同、電子發(fā)票信息等;這種一般需要自然語言處理技術(shù),進(jìn)行數(shù)據(jù)信息的結(jié)構(gòu)化提取。
信息的抽取是知識(shí)圖譜構(gòu)建的第一步,關(guān)鍵的點(diǎn)是:如何從數(shù)據(jù)源中自動(dòng)抽取到實(shí)體、關(guān)系、以及屬性等機(jī)構(gòu)化技術(shù)。
實(shí)體抽取又稱為實(shí)體識(shí)別,就是從文本中自動(dòng)識(shí)別出來命名的實(shí)體,它是信息抽取中最基礎(chǔ)的部分。
關(guān)系抽取就是進(jìn)行語義的識(shí)別,抽取到實(shí)體間的關(guān)系,這個(gè)是信息抽取中最關(guān)鍵的部分,也是形成網(wǎng)狀知識(shí)結(jié)構(gòu)的基礎(chǔ)。
關(guān)系的識(shí)別運(yùn)用到各種算法模型以及機(jī)器學(xué)習(xí)的方法,屬性抽取實(shí)現(xiàn)的是實(shí)體屬性的完整勾勒。
2)知識(shí)融合
主要是新知識(shí)的融合、整合、判別同義、近義、消除歧義、矛盾。
比如,某些實(shí)體數(shù)據(jù)在顯示世界中有多種表達(dá)方式,公司的注冊(cè)名稱、公司的簡(jiǎn)稱等,要對(duì)這些知識(shí)進(jìn)行同義融合,再比如某些特定的稱謂也許對(duì)應(yīng)著多個(gè)不同的實(shí)體。
知識(shí)融合包括兩部分:實(shí)體鏈接和知識(shí)合并。
實(shí)體鏈接:是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。一般是從知識(shí)庫中選中一些候選的對(duì)象,然后通過相似度將指定對(duì)象鏈接到正確的實(shí)體。流程如下:通過實(shí)體抽取獲取實(shí)體指稱項(xiàng)——通過實(shí)體消歧(解決同名實(shí)體歧義)和共指消解(多個(gè)指稱指向同一實(shí)體進(jìn)行相應(yīng)的合并)——將實(shí)體指稱鏈接到知識(shí)庫對(duì)應(yīng)實(shí)體。
知識(shí)合并:從第三方知識(shí)庫產(chǎn)品或是已有的結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行知識(shí)的獲取,一般是合并外部知識(shí)庫和和合并關(guān)系數(shù)據(jù)庫,合并中要避免實(shí)體與關(guān)系的沖突問題,防止不必要的冗余。
3)知識(shí)加工
某些知識(shí)需要進(jìn)行質(zhì)量評(píng)估,并且有些還需要人工介入與甄別,并進(jìn)行數(shù)據(jù)修正,然后再將正確的數(shù)據(jù)加入到知識(shí)庫中,保證其中的質(zhì)量。
知識(shí)加工主要包含:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。
我們從數(shù)據(jù)源中通過信息的抽取、實(shí)體、關(guān)系的識(shí)別,相關(guān)異常數(shù)據(jù)融合后,我們可以構(gòu)建本體庫了。
但是構(gòu)建完本體庫后,算是雛形搭建好了,有關(guān)系可能存在殘缺,這時(shí)候我們就可以運(yùn)用推理技術(shù),完成進(jìn)一步知識(shí)的發(fā)現(xiàn)。比如A是B的配偶,B是生活在C城市。如果我們從數(shù)據(jù)中沒有提取到A和C的關(guān)系,那我們可以通過配偶關(guān)系,推理出來A也生活在C。
質(zhì)量評(píng)估就是知識(shí)的可信度進(jìn)行量化,對(duì)一些置信度比較低的知識(shí)進(jìn)行舍棄。在處理過程中,人的參與也非常重要。
1.3.3 了解知識(shí)圖譜的構(gòu)建對(duì)產(chǎn)品經(jīng)理的意義
在知識(shí)圖譜構(gòu)建過程中,會(huì)綜合運(yùn)用知識(shí)圖譜存儲(chǔ)技術(shù)、相似度算法模型、深度學(xué)習(xí)等技術(shù)方法,是不是只需要技術(shù)人員參與就可以了?
其實(shí)并不是。
相反,他需要產(chǎn)品經(jīng)理與技術(shù)人員更加深度的合作與交流,并且在整個(gè)圖譜的建設(shè)過程中都少不了產(chǎn)品經(jīng)理的參與;在某些圖譜建設(shè)過程中產(chǎn)品經(jīng)理還處于主導(dǎo)作用。
當(dāng)你打算構(gòu)建一個(gè)知識(shí)圖譜,僅僅只靠技術(shù)人員去構(gòu)建是不夠的,需要產(chǎn)品經(jīng)理做出業(yè)務(wù)定義,理解業(yè)務(wù)所需要的圖譜數(shù)據(jù),指明圖譜中哪些是實(shí)體,哪些是屬性,實(shí)體間有什么樣的關(guān)系,這些都是要由產(chǎn)品經(jīng)理定義好的。
并且在建設(shè)圖譜來看,需要產(chǎn)品經(jīng)理與技術(shù)人員之間更加深入的交流與配合,更加要求產(chǎn)品懂得技術(shù)的應(yīng)用流程。比如業(yè)務(wù)數(shù)據(jù)的提供、數(shù)據(jù)范圍的劃分,圖譜提取之后的驗(yàn)證等。
每一步的構(gòu)建過程都需要產(chǎn)品經(jīng)理與技術(shù)人員的溝通,所以對(duì)于AI產(chǎn)品經(jīng)理很重要的一點(diǎn):理解技術(shù),理解技術(shù)的應(yīng)用,參與到技術(shù)應(yīng)用過程中。
通過了解支持圖譜是什么,知識(shí)圖譜如何表示,知識(shí)圖譜的構(gòu)建過程之后,那么一個(gè)完整的知識(shí)圖譜是如何設(shè)計(jì)的呢?
主要包含以下步驟:
定義業(yè)務(wù)需求;
數(shù)據(jù)收集與處理;
圖譜數(shù)據(jù)的設(shè)計(jì);
知識(shí)圖譜的存儲(chǔ);
算法開發(fā);
應(yīng)用開發(fā)。
很多人都認(rèn)為,構(gòu)建知識(shí)圖譜主要靠算法和開發(fā),但事實(shí)最重要的是對(duì)業(yè)務(wù)需求的理解以及圖譜數(shù)據(jù)的設(shè)計(jì)。
就像我們?cè)谧龊笈_(tái)產(chǎn)品設(shè)計(jì)的時(shí)候,數(shù)據(jù)庫表設(shè)計(jì)尤其關(guān)鍵,數(shù)據(jù)庫表設(shè)計(jì)的數(shù)據(jù)項(xiàng)與業(yè)務(wù)的深入理解是緊密聯(lián)系在一起的。
因此,設(shè)計(jì)知識(shí)圖譜跟我們產(chǎn)品經(jīng)理設(shè)計(jì)其他產(chǎn)品一樣:理解業(yè)務(wù),設(shè)計(jì)數(shù)據(jù)字段。
圖2-1借鑒李文哲對(duì)知識(shí)圖譜構(gòu)建理解
通過上圖我們知道,一個(gè)知識(shí)圖譜的構(gòu)建最重要的是業(yè)務(wù)理解、圖譜數(shù)據(jù)的設(shè)計(jì),這恰恰是產(chǎn)品經(jīng)理需要主導(dǎo)的設(shè)計(jì)工作。
因此下文將重點(diǎn)介紹一下定義業(yè)務(wù)需求、數(shù)據(jù)收集與處理以及圖數(shù)據(jù)的設(shè)計(jì)。
在知識(shí)圖譜中定義業(yè)務(wù)需求主要是兩方面:
1)要解決什么問題
這個(gè)跟咱們做前端、后臺(tái)產(chǎn)品經(jīng)理一樣,我們可以通過理解業(yè)務(wù)流程、數(shù)據(jù)字段的梳理、通過原型交互的實(shí)現(xiàn)來實(shí)現(xiàn)我們的業(yè)務(wù)需求。知識(shí)圖譜也一樣,圖譜也有上層應(yīng)用,比如問答機(jī)器人、個(gè)性化推薦等,通過一定應(yīng)用介質(zhì)實(shí)現(xiàn)需求的輸入和輸出。
2)解決這個(gè)問題,是否需要使用知識(shí)圖譜?
回答這個(gè)問題就是需要我們?cè)谠O(shè)計(jì)需求的時(shí)候,我們通過什么樣的數(shù)據(jù)存儲(chǔ)就可以解決我們的業(yè)務(wù)需求。實(shí)際上有時(shí)候我們完成業(yè)務(wù)需求的時(shí)候,用關(guān)系型的數(shù)據(jù)庫就可以完成,那么我們也就不需要知識(shí)圖譜了。
什么樣的需求可以用知識(shí)圖譜呢?
要想解決這個(gè)問題,就需要我們深入理解數(shù)據(jù)的存儲(chǔ)方式,目前數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)主要是關(guān)系型數(shù)據(jù)庫和知識(shí)圖譜型的數(shù)據(jù)存儲(chǔ)。因此了解需求所需要的數(shù)據(jù),以及數(shù)據(jù)的使用方式,是判定是否使用知識(shí)圖譜最好的方法。
知識(shí)圖譜對(duì)比關(guān)系型數(shù)據(jù)庫,最大的功能是數(shù)據(jù)間的多關(guān)系應(yīng)用,一般知識(shí)圖譜數(shù)據(jù)存儲(chǔ)方式解決的是多關(guān)系以及關(guān)系間的深度搜搜、對(duì)關(guān)系的查詢實(shí)時(shí)性要求、多樣化的數(shù)據(jù)以及數(shù)據(jù)孤島的問題。
當(dāng)然,處理關(guān)系深度需求需要知識(shí)圖譜之外,我們知道知識(shí)圖譜還有一個(gè)推理的作用,因此涉及到推理的需求也可以考慮知識(shí)圖譜。
2.1.1 關(guān)系需求
關(guān)系需求,就是說需求設(shè)計(jì)到數(shù)據(jù)間多關(guān)系的查詢,多關(guān)系的應(yīng)用,可以考慮知識(shí)圖譜。
那么,具體什么樣的關(guān)系可以通過知識(shí)圖譜呢?以下提供兩個(gè)思路給予借鑒:
1)某一數(shù)據(jù)存在與多實(shí)體產(chǎn)生關(guān)系
某一數(shù)據(jù)存在與多實(shí)體產(chǎn)生關(guān)系,是指某一項(xiàng)數(shù)據(jù)跟多個(gè)實(shí)體間有關(guān)系,這樣通過這一條數(shù)據(jù)的查找可以找到相關(guān)實(shí)體的數(shù)據(jù)。
比如,我們把一個(gè)年齡數(shù)據(jù)做成一個(gè)實(shí)體,實(shí)體是30周歲,張三年齡是30周歲,某一款產(chǎn)品試用范圍是10-50周歲;如果我們通過這個(gè)人的年齡查找這個(gè)產(chǎn)品,我們可以建立兩個(gè)實(shí)體間的關(guān)系,一個(gè)是人的年齡關(guān)系,一個(gè)是產(chǎn)品適用年齡關(guān)系,這樣就能很快查找到。
2)多實(shí)體間多關(guān)系查找實(shí)體
多實(shí)體間多關(guān)系查找實(shí)體,是指一個(gè)實(shí)體與另一個(gè)實(shí)體的時(shí)候,存在多個(gè)關(guān)系,通過多個(gè)關(guān)系去查找另一個(gè)實(shí)體。
比如,人、出生地、年齡之間有三個(gè)實(shí)體、兩個(gè)關(guān)系,某一款產(chǎn)品、售賣地區(qū)、適用年齡也是三個(gè)實(shí)體兩個(gè)關(guān)系;通過人的出生地、年齡實(shí)體數(shù)據(jù)以及關(guān)系,可以相應(yīng)查到這個(gè)售賣地區(qū)、適用年齡的某款產(chǎn)品。
因此我們可以發(fā)現(xiàn)知識(shí)圖譜能解決數(shù)據(jù)間多關(guān)系、深層次關(guān)系的實(shí)體查詢。
2.1.2 推理需求
知識(shí)圖譜不僅僅是根據(jù)關(guān)系的檢索,更大的核心用途是推理,發(fā)現(xiàn)圖譜中的隱藏關(guān)系,而不是發(fā)現(xiàn)新知識(shí)。
1)通過實(shí)體間的關(guān)系推理相關(guān)關(guān)系
通過多實(shí)體間的關(guān)系,可以推斷其他的關(guān)系,比如張三和李四之間是夫妻關(guān)系,王五是張三的領(lǐng)導(dǎo),王五居住在A城市,我們可以推論李四也居住在A城市。
2)通過實(shí)體間的關(guān)系推理相關(guān)屬性
通過多實(shí)體間的關(guān)系,實(shí)體的屬性值,可以推斷其實(shí)體的屬性值。這個(gè)與通過實(shí)體間的關(guān)系推論關(guān)系道理類似,也可以通過一個(gè)實(shí)體間的關(guān)系、根據(jù)實(shí)體的屬性推斷另一個(gè)實(shí)體的屬性。
在AI中涉及到推理的方法有很多,有基于邏輯的推理,有基于深度學(xué)習(xí)的推——這個(gè)就是基于圖譜的推理,也就是通過關(guān)系、屬性的因素做的推理。
定義好業(yè)務(wù)需求,就得根據(jù)業(yè)務(wù)需求找相關(guān)的數(shù)據(jù)。
我們?cè)谥R(shí)圖譜的構(gòu)建過程中關(guān)于信息的提取,介紹過都可以用那些數(shù)據(jù),這里重點(diǎn)介紹我們?cè)谑占瘮?shù)據(jù)的時(shí)候如何跟技術(shù)同事配合。
2.2.1 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)是知識(shí)圖譜最信賴的數(shù)據(jù),通常來自于我們業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),比如一些用戶畫像數(shù)據(jù)、銷售數(shù)據(jù)、合同數(shù)據(jù)、資源數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等。
凡是已經(jīng)結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),我們都可以結(jié)合業(yè)務(wù)的需求,來判定是否需要加入知識(shí)圖譜中,對(duì)于這些數(shù)據(jù)我們?nèi)绾翁峁┙o技術(shù)同事呢?
很簡(jiǎn)單,我們通過EXCEL表就可以了,只要告訴結(jié)構(gòu)化數(shù)據(jù)中哪些需要寫入到圖譜中就可以了。
2.2.2 半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)要考慮兩點(diǎn):
在開發(fā)資源中沒有存儲(chǔ)在結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫中,但是存在Jison中的數(shù)據(jù),這些可以通過開發(fā)能力解析Jison中的數(shù)據(jù),結(jié)構(gòu)化到知識(shí)圖譜中;
通過數(shù)據(jù)爬蟲的方式,爬蟲工程師在網(wǎng)頁上爬去相關(guān)的數(shù)據(jù),這需要產(chǎn)品經(jīng)理指明爬取的網(wǎng)頁、網(wǎng)頁的哪些數(shù)據(jù)項(xiàng)、這些數(shù)據(jù)項(xiàng)拆分哪些字段,先形成結(jié)構(gòu)化數(shù)據(jù),然后在計(jì)入到知識(shí)圖譜中。
2.2.3 非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)主要是一些文檔、文件等,比如一些合同文件、文章、PDF文檔等,需要產(chǎn)品經(jīng)理明確好要提取這些文檔哪些知識(shí)、提取規(guī)則,在通過算法識(shí)別、提取、訓(xùn)練等提取成結(jié)構(gòu)化數(shù)據(jù),然后計(jì)入到知識(shí)圖譜中。
我們拿到了數(shù)據(jù),就要開始知識(shí)圖譜的設(shè)計(jì)了。設(shè)計(jì)知識(shí)圖譜不僅需要對(duì)業(yè)務(wù)有很深的理解,也需要考慮圖譜的實(shí)用性、高效性。
設(shè)計(jì)知識(shí)圖譜主要是設(shè)計(jì)知識(shí)圖譜的三元組,也就是哪些數(shù)據(jù)是實(shí)體、哪些數(shù)據(jù)是屬性、實(shí)體之間有什么關(guān)系。這個(gè)在設(shè)計(jì)過程中需要很深入的理解,要根據(jù)業(yè)務(wù)需求去設(shè)計(jì)。
在這里提一點(diǎn):實(shí)體是數(shù)據(jù)不是一個(gè)類,比如產(chǎn)品不是實(shí)體,一個(gè)具體的產(chǎn)品名稱是一個(gè)實(shí)體;屬性也是一樣,是一個(gè)具體的值,比如性別不是屬性,男、女才是屬性值;只有關(guān)系是一個(gè)類,比如人的年齡,年齡就是一個(gè)關(guān)系。
除此之外,知識(shí)圖譜設(shè)計(jì)的藝術(shù)性還體現(xiàn)在,實(shí)體和屬性在不同業(yè)務(wù)要求下,可以有不同的定義。
有些實(shí)體可以作為屬性,有些屬性可以作為實(shí)體,也要具體看業(yè)務(wù)需求。比如,年齡數(shù)據(jù),如果不需要跟其他實(shí)體產(chǎn)生關(guān)系可以作為屬性;如果需要產(chǎn)生關(guān)系,就要作為實(shí)體。
在設(shè)計(jì)圖譜的時(shí)候,還要把握哪些數(shù)據(jù)是冗余的、不需要的。因此,作為產(chǎn)品經(jīng)理在做知識(shí)圖譜的設(shè)計(jì)的時(shí)候,最重要的就是這個(gè)三元組的設(shè)計(jì)。
本文由 @羅飛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。
題圖來自 Unsplash ,基于 CC0 協(xié)議
聯(lián)系客服