九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
產(chǎn)品經(jīng)理的知識(shí)圖譜應(yīng)用

知識(shí)圖譜對(duì)于產(chǎn)品經(jīng)理的工作有著很大的幫助,能夠建立更系統(tǒng)的設(shè)計(jì)流程,其應(yīng)用核心在于深刻理解業(yè)務(wù)。

  

一、什么是知識(shí)圖譜

1.1 知識(shí)圖譜的定義

知識(shí)圖譜概念開始由谷歌公司(Google)提出,為了提升搜索引擎返回的答案質(zhì)量,通過知識(shí)圖譜的構(gòu)建,去發(fā)現(xiàn)用戶查詢文本背后的語義信息,從而返回更準(zhǔn)確的信息。

我們以李小龍為例,如果不用知識(shí)圖譜,用戶搜索“李小龍的兒子是誰”時(shí),只能通過關(guān)鍵詞搜索的方式分析網(wǎng)頁中關(guān)鍵詞包含“李小龍”“兒子”等關(guān)鍵詞的網(wǎng)頁。

但是,通過知識(shí)圖譜搜索,可以精確搜索出準(zhǔn)確答案,我們以搜狗搜索為例(見圖1.1-1):

圖1.1-1 搜狗搜索結(jié)果

我們?cè)谒阉鳌袄钚↓埖膬鹤邮钦l”的時(shí)候,首先會(huì)對(duì)這個(gè)文本進(jìn)行語義識(shí)別,識(shí)別出來一個(gè)實(shí)體“李小龍”一個(gè)關(guān)系“兒子”,然后通過關(guān)系圖譜就會(huì)精確查到實(shí)體與關(guān)系的指向(見圖1.1-2),最終完成精確的檢索。

通過知識(shí)圖譜的輔助,搜索引擎通過背后的語義分析,返回更加精確,并且是結(jié)構(gòu)化的數(shù)據(jù)。

圖1.1-2李小龍的關(guān)系圖譜

追本溯源知識(shí)圖譜起源于上世紀(jì)60年代的語義網(wǎng)絡(luò)。

語義網(wǎng)絡(luò)(Semantic Network),是一種以網(wǎng)絡(luò)格式表達(dá)人類知識(shí)構(gòu)造的形式。它是由結(jié)點(diǎn)和結(jié)點(diǎn)之間的弧組成,結(jié)點(diǎn)表示概念(事件、事物),弧表示它們之間的關(guān)系。

語義網(wǎng)絡(luò)是一種比較早的知識(shí)表達(dá)形式,它是一個(gè)帶標(biāo)示的有向圖,各個(gè)節(jié)點(diǎn)表示知識(shí)中的物體、概念、實(shí)物等,點(diǎn)與點(diǎn)之間的鏈接。

“誰是誰的什么”的指向性關(guān)聯(lián)關(guān)系,與語義網(wǎng)絡(luò)類似,在知識(shí)圖譜領(lǐng)域,是一些相互連接的實(shí)體以及屬性構(gòu)成。

所以,知識(shí)圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。

因此從數(shù)據(jù)角度來看,知識(shí)圖譜通過對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理、抽取、整合,轉(zhuǎn)化成“實(shí)體-關(guān)系-實(shí)體”(見圖1.1-3)的三元組,然后聚合大量知識(shí),實(shí)現(xiàn)快速的響應(yīng)。

從應(yīng)用層面來看,知識(shí)圖譜是用來描述真實(shí)世界中存在的實(shí)體,以及他們之間的關(guān)系。

圖1.1-3 三元組案例

從不同視角,基于圖1.1-3的案例,我們來看一下知識(shí)圖譜在不同技術(shù)的理解。

從互聯(lián)網(wǎng)視角來看,跟文本之間的超鏈接一樣,通過圖譜建立數(shù)據(jù)之間的語義鏈接。比如,張三的妻子是李四,通過圖數(shù)據(jù)方式支持實(shí)體、實(shí)體之間的關(guān)系的檢索。

從自然語言處理的角度來看,如何從非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中提取數(shù)據(jù),抽取其中的語義。比如,我們拿到張三的簡(jiǎn)歷,簡(jiǎn)歷上寫出生地是河北,通過提取規(guī)則來獲取到“張三”、“河北”這兩個(gè)實(shí)體,以及“籍貫”這個(gè)關(guān)系,并機(jī)構(gòu)化存儲(chǔ)起來。

從人工智能視角來看,如何利用知識(shí)圖譜來輔助理解人類的語言,并進(jìn)行相應(yīng)關(guān)系的查詢和機(jī)器的推理。

1.2 知識(shí)圖譜的表示與存儲(chǔ)

我們了解了知識(shí)圖譜的概念,那么知識(shí)圖譜是如何存儲(chǔ)知識(shí)數(shù)據(jù)以及如何呈現(xiàn)出來的?作為產(chǎn)品經(jīng)理理解知識(shí)圖譜的表示與存儲(chǔ)對(duì)我們有什么意義呢?這些問題將在本章中進(jìn)行解釋與回答。

1.2.1 知識(shí)圖譜的表示

所謂知識(shí)圖譜的表示,是指計(jì)算機(jī)通過何種方式來表達(dá)真實(shí)世界中包含的知識(shí)數(shù)據(jù)。

知識(shí)圖譜本質(zhì)上就是語義網(wǎng)絡(luò)的知識(shí)庫,因此我們可以簡(jiǎn)單把知識(shí)圖譜的表示理解為多關(guān)系圖,基于向量空間學(xué)習(xí)的分布式知識(shí)表示。

我們知道圖是由點(diǎn)和邊來構(gòu)成的。那在知識(shí)圖譜中,用“實(shí)體”來表達(dá)圖中的點(diǎn),用“關(guān)系”來表單不同點(diǎn)之間的聯(lián)系,例如圖1.1-3,其中的圓形的代表實(shí)體,點(diǎn)與點(diǎn)之間的連線是叫關(guān)系。

實(shí)體是現(xiàn)實(shí)世界中的事物,比如人名、地名、公司名、藥品名稱、專業(yè)知識(shí)概念、在某些場(chǎng)景下年齡、性別等都可以作為實(shí)體;關(guān)系是不同實(shí)體之間的真實(shí)聯(lián)系,比如李四是張三的妻子,張三的籍貫是河北等,里面的妻子、籍貫都是真實(shí)世界中的關(guān)系。

在現(xiàn)實(shí)世界社交網(wǎng)絡(luò)中,我們可以找到好多實(shí)體,比圖某某人、某某公司、某某人手機(jī)號(hào)、某某公司注冊(cè)地址等都可以作為實(shí)體數(shù)據(jù)。實(shí)體與實(shí)體之間的關(guān)系也不是一成不變的,比如人與工作崗位的關(guān)系,并不是一成不變的,是根據(jù)人的工作年限,努力程度,其工作崗位會(huì)有變動(dòng)。因此人與工作崗位的關(guān)系中可以有曾任職、現(xiàn)任職等關(guān)系,案例看圖1.2-1。

圖1.2-1 某企業(yè)信用查詢APP關(guān)于企業(yè)關(guān)系的圖譜

從圖1.2-1中我們可以看到有如下“實(shí)體-關(guān)系-實(shí)體”:

  • 某某企業(yè)與某某企業(yè)間的參股關(guān)系;

  • 某某企業(yè)與某某人間的職位(總經(jīng)理、董事長(zhǎng)、董事等)關(guān)系;

  • 某某企業(yè)與某某人間的參股關(guān)系。

因此我們可以從圖中得知某某人、某某企業(yè)是實(shí)體;參股、總經(jīng)理、董事長(zhǎng)、監(jiān)事等是關(guān)系。

知識(shí)圖譜處理表達(dá)的實(shí)體與實(shí)體間的關(guān)三元組是知識(shí)圖譜的核心。除此之外,可以表達(dá)實(shí)體的某些屬性,可以通過屬性圖來表達(dá),比如某某人的出生日期、比如某某人的曾用名、比如某某人的介紹等。

因此,知識(shí)圖譜整體來說,是通過圖數(shù)據(jù)的形式,來表達(dá)實(shí)體與實(shí)體間的關(guān)系,實(shí)體的相關(guān)屬性的值。

1.2.2 知識(shí)圖譜的存儲(chǔ)

通過知識(shí)圖譜的表示,可以很直觀看到知識(shí)圖譜包含的知識(shí)數(shù)據(jù),對(duì)于理解知識(shí)圖譜的存儲(chǔ)有很好的促進(jìn)作用。

知識(shí)圖譜主要有兩種存儲(chǔ)方式:

  1. 基于RDF的存儲(chǔ);

  2. 基于圖數(shù)據(jù)庫的存儲(chǔ)。

由于RDF以三元組的方式來存儲(chǔ)數(shù)據(jù)而且不包含屬性信息,圖數(shù)據(jù)庫一般以屬性圖為基本的表示方式,常用Neo4j。因此所以實(shí)體和關(guān)系可以包含屬性,能更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景。

知識(shí)圖譜的原始數(shù)據(jù)類型一般來說有三類:

  1. 結(jié)構(gòu)化數(shù)據(jù):如關(guān)系數(shù)據(jù)庫;

  2. 非結(jié)構(gòu)化數(shù)據(jù):圖片、PDF、視頻、音頻、文本等;

  3. 半結(jié)構(gòu)化數(shù)據(jù):百科知識(shí)、JSON、XML等。

從以上數(shù)據(jù)中提取實(shí)體、關(guān)系、屬性以及屬性值。

做后臺(tái)產(chǎn)品經(jīng)理的,對(duì)關(guān)系型數(shù)據(jù)庫并不陌生,有人會(huì)問了,按照?qǐng)D1.1-3不一定通過知識(shí)圖譜通過關(guān)系圖譜也可以達(dá)到效果了,比如建一個(gè)人員基本信息表,建一個(gè)用戶間家庭關(guān)系,也可以查詢到,如圖1.2-2。

圖1.2-2 二維表關(guān)系表示

那么,知識(shí)圖譜圖數(shù)據(jù)存儲(chǔ)方式到底跟關(guān)系型數(shù)據(jù)庫道理有什么區(qū)別呢?

其實(shí),關(guān)系型數(shù)據(jù)存儲(chǔ)方式與圖數(shù)據(jù)存儲(chǔ)方式之間的作用不是非此即彼的,是相互配合使用的,根據(jù)不同的業(yè)務(wù)場(chǎng)景來使用。

圖數(shù)據(jù)多關(guān)系的建模,關(guān)系型數(shù)據(jù)庫是不同表之間的關(guān)系,如果關(guān)系太多對(duì)關(guān)系型數(shù)據(jù)庫并不是很友好。在圖數(shù)據(jù)庫中可以把籍貫、職業(yè)拆分出來一個(gè)關(guān)系。

不僅如此,如果我們把身份證號(hào)作為一個(gè)實(shí)體,那么姓名、曾用名等都可以查分出來一個(gè)關(guān)系,這個(gè)是關(guān)系型數(shù)據(jù)庫難以做到的。

因此。圖數(shù)據(jù)庫更加適用于通過實(shí)體的分析找到對(duì)業(yè)務(wù)有力的更多的關(guān)系。比如,我們把籍貫的地址可以拆出來多個(gè)關(guān)系,現(xiàn)居住地、曾居住地、出生地等,同樣一個(gè)實(shí)體(河北)其實(shí)可以拆出來三種關(guān)系來滿足不同業(yè)務(wù)場(chǎng)景。

因此,知識(shí)圖譜更加關(guān)注關(guān)系,更加關(guān)注一些隱含的關(guān)系、序時(shí)變動(dòng)的動(dòng)態(tài)關(guān)系。當(dāng)然,多關(guān)系的查詢圖數(shù)據(jù)的性能更好。

關(guān)系型數(shù)據(jù)庫更是對(duì)數(shù)據(jù)的記錄,更多適用于一些業(yè)務(wù)流程數(shù)據(jù),比如電商里面的訂單銷售數(shù)據(jù)、合同數(shù)據(jù)、結(jié)算數(shù)據(jù)等,能夠記錄、反應(yīng)、分析基本業(yè)務(wù)要求與場(chǎng)景。

而圖數(shù)據(jù)更多是配合業(yè)務(wù)要求,去輔助業(yè)務(wù),比如訂單銷售數(shù)據(jù)中記錄了用戶買的什么產(chǎn)品這一事實(shí),我們可以通過統(tǒng)計(jì)功能做一些業(yè)務(wù)分析。

但是如果做一些個(gè)性化推薦工作,我們可以通過圖數(shù)據(jù)的方式,通過用戶信息和產(chǎn)品某些特性之間建立關(guān)系,可以為客戶提供個(gè)性化的推薦方案——也就是說圖數(shù)據(jù)存儲(chǔ)方式可以幫助系統(tǒng)實(shí)現(xiàn)推理的功能。

比如,姚明是一個(gè)籃球運(yùn)動(dòng)員,我們知道籃球運(yùn)動(dòng)員有一個(gè)屬性就是身材都比較高。當(dāng)你問系統(tǒng)姚明身高的時(shí)候,系統(tǒng)可以通過姚明與籃球遠(yuǎn)動(dòng)員的關(guān)系,通過籃球運(yùn)動(dòng)員的屬性來推理出姚明身高——這也是圖數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)應(yīng)用的一個(gè)最重要的作用。

1.2.3 理解知識(shí)圖譜的表示和存儲(chǔ)對(duì)產(chǎn)品經(jīng)理的意義

對(duì)于理解知識(shí)圖譜的表示和存儲(chǔ)對(duì)產(chǎn)品經(jīng)理最重要的意義就是根據(jù)業(yè)務(wù)需求,定義實(shí)體、關(guān)系、屬性以及屬性值。

做后臺(tái)產(chǎn)品經(jīng)理我們都知道,我們?cè)谠O(shè)計(jì)產(chǎn)品功能的時(shí)候,有四個(gè)基本對(duì)象需要設(shè)計(jì):

  1. 存儲(chǔ)數(shù)據(jù)的字段;

  2. 梳理業(yè)務(wù)的流程;

  3. 規(guī)則設(shè)計(jì)(業(yè)務(wù)規(guī)則、輸入規(guī)則、邏輯規(guī)則等);

  4. 頁面交互的設(shè)計(jì)。

其中字段設(shè)計(jì)是其中最基礎(chǔ)的部分,是我們后臺(tái)設(shè)計(jì)最核心的部分。

首先,我們?cè)O(shè)計(jì)后臺(tái)系統(tǒng)展現(xiàn)的表單信息來源于字段設(shè)計(jì)、業(yè)務(wù)流程中體現(xiàn)的業(yè)務(wù)信息載體是字段設(shè)計(jì)、規(guī)則設(shè)計(jì)中相關(guān)規(guī)則控制對(duì)象也是字段,因此設(shè)計(jì)好字段是后臺(tái)產(chǎn)品設(shè)計(jì)最基礎(chǔ)也是最核心的工作。

字段維度涉及如下維度:

  • 字段所屬對(duì)象,就像后臺(tái)按照模塊分類一樣 ,字段也有所屬對(duì)象的分類,比如商品、用戶、訂單、結(jié)算單、提現(xiàn)單、紅包、獎(jiǎng)勵(lì)券、客戶等,這些對(duì)象是字段承載的載體。

  • 字段值類型,字段值類型常用的包括字符串(比較常用)、枚舉(審核狀態(tài)、是否項(xiàng)目等)、日期時(shí)間、浮點(diǎn)數(shù)(金額類型,定義小數(shù)點(diǎn)后位數(shù),小數(shù)點(diǎn)前位數(shù))、數(shù)字(正整數(shù)、是否可以為負(fù)等)。

  • 字段是否必填,這個(gè)是指字段在寫入值的時(shí)候是必須有值的還是可以為空,比如新增一個(gè)商品,商品編碼、商品名稱是必填,商品關(guān)鍵字可以為空等。

  • 字段值來源,字段值來源是指字段在寫入的時(shí)候來源于哪里,常見的包括以下幾種:來源于輸入(就是通過前段某一個(gè)頁面通過用戶輸入或是選擇獲取的值),系統(tǒng)自動(dòng)生成(比如創(chuàng)建時(shí)間、業(yè)務(wù)編號(hào)等字段);來源于其他數(shù)據(jù)(比如訂單里面的商品編碼字段,就來源商品里面的商品編碼字段)。

  • 字段值長(zhǎng)度,字段值長(zhǎng)度是存儲(chǔ)在數(shù)據(jù)庫中值的最長(zhǎng)長(zhǎng)度是多少,比如字符串類型,可以規(guī)定長(zhǎng)度32位,這個(gè)一般根據(jù)業(yè)務(wù)需求制定的一個(gè)最長(zhǎng)長(zhǎng)度,便于開發(fā)設(shè)計(jì)表結(jié)構(gòu)。當(dāng)你的數(shù)據(jù)項(xiàng)很清晰的時(shí)候,對(duì)于開發(fā)人員的理解業(yè)務(wù)、設(shè)計(jì)都有很好的促進(jìn)作用。

我們做任何功能的設(shè)計(jì),對(duì)數(shù)據(jù)的設(shè)計(jì)永遠(yuǎn)是第一步。

對(duì)知識(shí)圖譜也一樣,我們要明確出來儲(chǔ)存哪些實(shí)體,建立哪些關(guān)系,哪些是屬性,屬性值是什么。

比如,防欺詐系統(tǒng)中,如果發(fā)現(xiàn)兩個(gè)不同的用戶擁有了同一個(gè)手機(jī)號(hào)或是居住地址,并且兩者沒有任何家庭關(guān)系的時(shí)候,我們就認(rèn)為這是一個(gè)具有欺詐行為的用戶(因?yàn)橐话阌脩艉褪謾C(jī)號(hào)是一對(duì)多的,手機(jī)號(hào)對(duì)用戶是一對(duì)一的,一個(gè)手機(jī)號(hào)不太可能給兩個(gè)用戶使用)。

這時(shí)我們會(huì)把手機(jī)號(hào)、姓名、身份證號(hào)、地域作為實(shí)體,然后建立聯(lián)系方式、身份信息隸屬、居住地、家庭關(guān)系等相關(guān)關(guān)系,通過手機(jī)號(hào)、姓名的聯(lián)系方式關(guān)系查詢一目了然。

因此,圖譜的使用也離不開產(chǎn)品經(jīng)理對(duì)業(yè)務(wù)的深入理解,在深入理解的前提下,正確識(shí)別實(shí)體、關(guān)系、屬性等圖數(shù)據(jù)基本存儲(chǔ)方式。對(duì)于開發(fā)對(duì)業(yè)務(wù)的理解、開發(fā)的設(shè)計(jì)也是有相同的促進(jìn)作用。

所以,理解知識(shí)圖譜的存儲(chǔ)與表示,能更好幫助產(chǎn)品經(jīng)理定義知識(shí)圖譜,定義實(shí)體、關(guān)系、屬性以及屬性值。

1.3 知識(shí)圖譜構(gòu)建過程

我們了解了什么是知識(shí)圖譜,知識(shí)圖譜的數(shù)據(jù)機(jī)構(gòu)。

那下面我們簡(jiǎn)單描述一下如何構(gòu)建知識(shí)圖譜,以及了解如何構(gòu)建知識(shí)圖譜對(duì)我們產(chǎn)品經(jīng)理有什么幫助。

1.3.1 知識(shí)圖譜的邏輯架構(gòu)

在了解知識(shí)圖譜構(gòu)建流程之前,我們先了解一下其邏輯架構(gòu)。

知識(shí)圖譜在邏輯上分為模式層和數(shù)據(jù)層:

  • 模式層:是知識(shí)圖譜的核心,是構(gòu)建在數(shù)據(jù)層之上,也就是定義通用概念為實(shí)體、實(shí)體鍵的關(guān)系,也成構(gòu)建本體庫,也就是指的實(shí)體-關(guān)系-實(shí)體,實(shí)體-屬性-性值。

  • 數(shù)據(jù)層:是知識(shí)圖譜的事實(shí)數(shù)據(jù),以相關(guān)事實(shí)為單位進(jìn)行存儲(chǔ),比如張三——妻子——李四;張三——出生年份——1985等。

1.3.2 知識(shí)圖譜構(gòu)建流程

知識(shí)圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ),知識(shí)圖譜確定了本體庫,就需要對(duì)知識(shí)圖譜的數(shù)據(jù)進(jìn)行構(gòu)建。具體構(gòu)建過程包含3個(gè)階段:信息抽取、知識(shí)融合、知識(shí)加工。

1)信息抽取

從各種數(shù)據(jù)源中進(jìn)行實(shí)體識(shí)別、關(guān)系識(shí)別,從而抽取實(shí)體、關(guān)系、屬性以及實(shí)體間的關(guān)系,屬性的值,完成本體的知識(shí)表達(dá),具體可以參照前文關(guān)于知識(shí)庫的表達(dá)部分。

對(duì)于知識(shí)圖譜來說,數(shù)據(jù)源我們知道有結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)渠道一般是三種:

  1. 業(yè)務(wù)的關(guān)系數(shù)據(jù),這些數(shù)據(jù)通常包含在公司內(nèi)數(shù)據(jù)庫中;一般是結(jié)構(gòu)化數(shù)據(jù),或者是系統(tǒng)交互中Jison數(shù)據(jù),雖然沒有結(jié)構(gòu)化,但是仍然可以通過功能進(jìn)行存儲(chǔ),這種數(shù)據(jù)一般定義好本體庫可以直接使用;

  2. 網(wǎng)上公開發(fā)布的可以抓取的數(shù)據(jù),通常以網(wǎng)頁形式存在,這種一般要通過爬蟲技術(shù),通過本體庫相關(guān)關(guān)鍵詞進(jìn)行數(shù)據(jù)的爬取并結(jié)構(gòu)化;

  3. 相關(guān)合同、文件等,比如一些保險(xiǎn)合同、電子發(fā)票信息等;這種一般需要自然語言處理技術(shù),進(jìn)行數(shù)據(jù)信息的結(jié)構(gòu)化提取。

信息的抽取是知識(shí)圖譜構(gòu)建的第一步,關(guān)鍵的點(diǎn)是:如何從數(shù)據(jù)源中自動(dòng)抽取到實(shí)體、關(guān)系、以及屬性等機(jī)構(gòu)化技術(shù)。

實(shí)體抽取又稱為實(shí)體識(shí)別,就是從文本中自動(dòng)識(shí)別出來命名的實(shí)體,它是信息抽取中最基礎(chǔ)的部分。

關(guān)系抽取就是進(jìn)行語義的識(shí)別,抽取到實(shí)體間的關(guān)系,這個(gè)是信息抽取中最關(guān)鍵的部分,也是形成網(wǎng)狀知識(shí)結(jié)構(gòu)的基礎(chǔ)。

關(guān)系的識(shí)別運(yùn)用到各種算法模型以及機(jī)器學(xué)習(xí)的方法,屬性抽取實(shí)現(xiàn)的是實(shí)體屬性的完整勾勒。

2)知識(shí)融合

主要是新知識(shí)的融合、整合、判別同義、近義、消除歧義、矛盾。

比如,某些實(shí)體數(shù)據(jù)在顯示世界中有多種表達(dá)方式,公司的注冊(cè)名稱、公司的簡(jiǎn)稱等,要對(duì)這些知識(shí)進(jìn)行同義融合,再比如某些特定的稱謂也許對(duì)應(yīng)著多個(gè)不同的實(shí)體。

知識(shí)融合包括兩部分:實(shí)體鏈接和知識(shí)合并。

  1. 實(shí)體鏈接:是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。一般是從知識(shí)庫中選中一些候選的對(duì)象,然后通過相似度將指定對(duì)象鏈接到正確的實(shí)體。流程如下:通過實(shí)體抽取獲取實(shí)體指稱項(xiàng)——通過實(shí)體消歧(解決同名實(shí)體歧義)和共指消解(多個(gè)指稱指向同一實(shí)體進(jìn)行相應(yīng)的合并)——將實(shí)體指稱鏈接到知識(shí)庫對(duì)應(yīng)實(shí)體。

  2. 知識(shí)合并:從第三方知識(shí)庫產(chǎn)品或是已有的結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行知識(shí)的獲取,一般是合并外部知識(shí)庫和和合并關(guān)系數(shù)據(jù)庫,合并中要避免實(shí)體與關(guān)系的沖突問題,防止不必要的冗余。

3)知識(shí)加工

某些知識(shí)需要進(jìn)行質(zhì)量評(píng)估,并且有些還需要人工介入與甄別,并進(jìn)行數(shù)據(jù)修正,然后再將正確的數(shù)據(jù)加入到知識(shí)庫中,保證其中的質(zhì)量。

知識(shí)加工主要包含:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。

我們從數(shù)據(jù)源中通過信息的抽取、實(shí)體、關(guān)系的識(shí)別,相關(guān)異常數(shù)據(jù)融合后,我們可以構(gòu)建本體庫了。

但是構(gòu)建完本體庫后,算是雛形搭建好了,有關(guān)系可能存在殘缺,這時(shí)候我們就可以運(yùn)用推理技術(shù),完成進(jìn)一步知識(shí)的發(fā)現(xiàn)。比如A是B的配偶,B是生活在C城市。如果我們從數(shù)據(jù)中沒有提取到A和C的關(guān)系,那我們可以通過配偶關(guān)系,推理出來A也生活在C。

質(zhì)量評(píng)估就是知識(shí)的可信度進(jìn)行量化,對(duì)一些置信度比較低的知識(shí)進(jìn)行舍棄。在處理過程中,人的參與也非常重要。

1.3.3 了解知識(shí)圖譜的構(gòu)建對(duì)產(chǎn)品經(jīng)理的意義

在知識(shí)圖譜構(gòu)建過程中,會(huì)綜合運(yùn)用知識(shí)圖譜存儲(chǔ)技術(shù)、相似度算法模型、深度學(xué)習(xí)等技術(shù)方法,是不是只需要技術(shù)人員參與就可以了?

其實(shí)并不是。

相反,他需要產(chǎn)品經(jīng)理與技術(shù)人員更加深度的合作與交流,并且在整個(gè)圖譜的建設(shè)過程中都少不了產(chǎn)品經(jīng)理的參與;在某些圖譜建設(shè)過程中產(chǎn)品經(jīng)理還處于主導(dǎo)作用。

當(dāng)你打算構(gòu)建一個(gè)知識(shí)圖譜,僅僅只靠技術(shù)人員去構(gòu)建是不夠的,需要產(chǎn)品經(jīng)理做出業(yè)務(wù)定義,理解業(yè)務(wù)所需要的圖譜數(shù)據(jù),指明圖譜中哪些是實(shí)體,哪些是屬性,實(shí)體間有什么樣的關(guān)系,這些都是要由產(chǎn)品經(jīng)理定義好的。

并且在建設(shè)圖譜來看,需要產(chǎn)品經(jīng)理與技術(shù)人員之間更加深入的交流與配合,更加要求產(chǎn)品懂得技術(shù)的應(yīng)用流程。比如業(yè)務(wù)數(shù)據(jù)的提供、數(shù)據(jù)范圍的劃分,圖譜提取之后的驗(yàn)證等。

每一步的構(gòu)建過程都需要產(chǎn)品經(jīng)理與技術(shù)人員的溝通,所以對(duì)于AI產(chǎn)品經(jīng)理很重要的一點(diǎn):理解技術(shù),理解技術(shù)的應(yīng)用,參與到技術(shù)應(yīng)用過程中。

二、知識(shí)圖譜應(yīng)用

通過了解支持圖譜是什么,知識(shí)圖譜如何表示,知識(shí)圖譜的構(gòu)建過程之后,那么一個(gè)完整的知識(shí)圖譜是如何設(shè)計(jì)的呢?

主要包含以下步驟:

  1. 定義業(yè)務(wù)需求;

  2. 數(shù)據(jù)收集與處理;

  3. 圖譜數(shù)據(jù)的設(shè)計(jì);

  4. 知識(shí)圖譜的存儲(chǔ);

  5. 算法開發(fā);

  6. 應(yīng)用開發(fā)。

很多人都認(rèn)為,構(gòu)建知識(shí)圖譜主要靠算法和開發(fā),但事實(shí)最重要的是對(duì)業(yè)務(wù)需求的理解以及圖譜數(shù)據(jù)的設(shè)計(jì)。

就像我們?cè)谧龊笈_(tái)產(chǎn)品設(shè)計(jì)的時(shí)候,數(shù)據(jù)庫表設(shè)計(jì)尤其關(guān)鍵,數(shù)據(jù)庫表設(shè)計(jì)的數(shù)據(jù)項(xiàng)與業(yè)務(wù)的深入理解是緊密聯(lián)系在一起的。

因此,設(shè)計(jì)知識(shí)圖譜跟我們產(chǎn)品經(jīng)理設(shè)計(jì)其他產(chǎn)品一樣:理解業(yè)務(wù),設(shè)計(jì)數(shù)據(jù)字段。

圖2-1借鑒李文哲對(duì)知識(shí)圖譜構(gòu)建理解

通過上圖我們知道,一個(gè)知識(shí)圖譜的構(gòu)建最重要的是業(yè)務(wù)理解、圖譜數(shù)據(jù)的設(shè)計(jì),這恰恰是產(chǎn)品經(jīng)理需要主導(dǎo)的設(shè)計(jì)工作。

因此下文將重點(diǎn)介紹一下定義業(yè)務(wù)需求、數(shù)據(jù)收集與處理以及圖數(shù)據(jù)的設(shè)計(jì)。

2.1 定義業(yè)務(wù)需求

在知識(shí)圖譜中定義業(yè)務(wù)需求主要是兩方面:

1)要解決什么問題

這個(gè)跟咱們做前端、后臺(tái)產(chǎn)品經(jīng)理一樣,我們可以通過理解業(yè)務(wù)流程、數(shù)據(jù)字段的梳理、通過原型交互的實(shí)現(xiàn)來實(shí)現(xiàn)我們的業(yè)務(wù)需求。知識(shí)圖譜也一樣,圖譜也有上層應(yīng)用,比如問答機(jī)器人、個(gè)性化推薦等,通過一定應(yīng)用介質(zhì)實(shí)現(xiàn)需求的輸入和輸出。

2)解決這個(gè)問題,是否需要使用知識(shí)圖譜?

回答這個(gè)問題就是需要我們?cè)谠O(shè)計(jì)需求的時(shí)候,我們通過什么樣的數(shù)據(jù)存儲(chǔ)就可以解決我們的業(yè)務(wù)需求。實(shí)際上有時(shí)候我們完成業(yè)務(wù)需求的時(shí)候,用關(guān)系型的數(shù)據(jù)庫就可以完成,那么我們也就不需要知識(shí)圖譜了。

什么樣的需求可以用知識(shí)圖譜呢?

要想解決這個(gè)問題,就需要我們深入理解數(shù)據(jù)的存儲(chǔ)方式,目前數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)主要是關(guān)系型數(shù)據(jù)庫和知識(shí)圖譜型的數(shù)據(jù)存儲(chǔ)。因此了解需求所需要的數(shù)據(jù),以及數(shù)據(jù)的使用方式,是判定是否使用知識(shí)圖譜最好的方法。

知識(shí)圖譜對(duì)比關(guān)系型數(shù)據(jù)庫,最大的功能是數(shù)據(jù)間的多關(guān)系應(yīng)用,一般知識(shí)圖譜數(shù)據(jù)存儲(chǔ)方式解決的是多關(guān)系以及關(guān)系間的深度搜搜、對(duì)關(guān)系的查詢實(shí)時(shí)性要求、多樣化的數(shù)據(jù)以及數(shù)據(jù)孤島的問題。

當(dāng)然,處理關(guān)系深度需求需要知識(shí)圖譜之外,我們知道知識(shí)圖譜還有一個(gè)推理的作用,因此涉及到推理的需求也可以考慮知識(shí)圖譜。

2.1.1 關(guān)系需求

關(guān)系需求,就是說需求設(shè)計(jì)到數(shù)據(jù)間多關(guān)系的查詢,多關(guān)系的應(yīng)用,可以考慮知識(shí)圖譜。

那么,具體什么樣的關(guān)系可以通過知識(shí)圖譜呢?以下提供兩個(gè)思路給予借鑒:

1)某一數(shù)據(jù)存在與多實(shí)體產(chǎn)生關(guān)系

某一數(shù)據(jù)存在與多實(shí)體產(chǎn)生關(guān)系,是指某一項(xiàng)數(shù)據(jù)跟多個(gè)實(shí)體間有關(guān)系,這樣通過這一條數(shù)據(jù)的查找可以找到相關(guān)實(shí)體的數(shù)據(jù)。

比如,我們把一個(gè)年齡數(shù)據(jù)做成一個(gè)實(shí)體,實(shí)體是30周歲,張三年齡是30周歲,某一款產(chǎn)品試用范圍是10-50周歲;如果我們通過這個(gè)人的年齡查找這個(gè)產(chǎn)品,我們可以建立兩個(gè)實(shí)體間的關(guān)系,一個(gè)是人的年齡關(guān)系,一個(gè)是產(chǎn)品適用年齡關(guān)系,這樣就能很快查找到。

2)多實(shí)體間多關(guān)系查找實(shí)體

多實(shí)體間多關(guān)系查找實(shí)體,是指一個(gè)實(shí)體與另一個(gè)實(shí)體的時(shí)候,存在多個(gè)關(guān)系,通過多個(gè)關(guān)系去查找另一個(gè)實(shí)體。

比如,人、出生地、年齡之間有三個(gè)實(shí)體、兩個(gè)關(guān)系,某一款產(chǎn)品、售賣地區(qū)、適用年齡也是三個(gè)實(shí)體兩個(gè)關(guān)系;通過人的出生地、年齡實(shí)體數(shù)據(jù)以及關(guān)系,可以相應(yīng)查到這個(gè)售賣地區(qū)、適用年齡的某款產(chǎn)品。

因此我們可以發(fā)現(xiàn)知識(shí)圖譜能解決數(shù)據(jù)間多關(guān)系、深層次關(guān)系的實(shí)體查詢。

2.1.2 推理需求

知識(shí)圖譜不僅僅是根據(jù)關(guān)系的檢索,更大的核心用途是推理,發(fā)現(xiàn)圖譜中的隱藏關(guān)系,而不是發(fā)現(xiàn)新知識(shí)。

1)通過實(shí)體間的關(guān)系推理相關(guān)關(guān)系

通過多實(shí)體間的關(guān)系,可以推斷其他的關(guān)系,比如張三和李四之間是夫妻關(guān)系,王五是張三的領(lǐng)導(dǎo),王五居住在A城市,我們可以推論李四也居住在A城市。

2)通過實(shí)體間的關(guān)系推理相關(guān)屬性

通過多實(shí)體間的關(guān)系,實(shí)體的屬性值,可以推斷其實(shí)體的屬性值。這個(gè)與通過實(shí)體間的關(guān)系推論關(guān)系道理類似,也可以通過一個(gè)實(shí)體間的關(guān)系、根據(jù)實(shí)體的屬性推斷另一個(gè)實(shí)體的屬性。

在AI中涉及到推理的方法有很多,有基于邏輯的推理,有基于深度學(xué)習(xí)的推——這個(gè)就是基于圖譜的推理,也就是通過關(guān)系、屬性的因素做的推理。

2.2 數(shù)據(jù)的收集與處理

定義好業(yè)務(wù)需求,就得根據(jù)業(yè)務(wù)需求找相關(guān)的數(shù)據(jù)。

我們?cè)谥R(shí)圖譜的構(gòu)建過程中關(guān)于信息的提取,介紹過都可以用那些數(shù)據(jù),這里重點(diǎn)介紹我們?cè)谑占瘮?shù)據(jù)的時(shí)候如何跟技術(shù)同事配合。

2.2.1 結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù)是知識(shí)圖譜最信賴的數(shù)據(jù),通常來自于我們業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),比如一些用戶畫像數(shù)據(jù)、銷售數(shù)據(jù)、合同數(shù)據(jù)、資源數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等。

凡是已經(jīng)結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),我們都可以結(jié)合業(yè)務(wù)的需求,來判定是否需要加入知識(shí)圖譜中,對(duì)于這些數(shù)據(jù)我們?nèi)绾翁峁┙o技術(shù)同事呢?

很簡(jiǎn)單,我們通過EXCEL表就可以了,只要告訴結(jié)構(gòu)化數(shù)據(jù)中哪些需要寫入到圖譜中就可以了。

2.2.2 半結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)要考慮兩點(diǎn):

  1. 在開發(fā)資源中沒有存儲(chǔ)在結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫中,但是存在Jison中的數(shù)據(jù),這些可以通過開發(fā)能力解析Jison中的數(shù)據(jù),結(jié)構(gòu)化到知識(shí)圖譜中;

  2. 通過數(shù)據(jù)爬蟲的方式,爬蟲工程師在網(wǎng)頁上爬去相關(guān)的數(shù)據(jù),這需要產(chǎn)品經(jīng)理指明爬取的網(wǎng)頁、網(wǎng)頁的哪些數(shù)據(jù)項(xiàng)、這些數(shù)據(jù)項(xiàng)拆分哪些字段,先形成結(jié)構(gòu)化數(shù)據(jù),然后在計(jì)入到知識(shí)圖譜中。

2.2.3 非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù)主要是一些文檔、文件等,比如一些合同文件、文章、PDF文檔等,需要產(chǎn)品經(jīng)理明確好要提取這些文檔哪些知識(shí)、提取規(guī)則,在通過算法識(shí)別、提取、訓(xùn)練等提取成結(jié)構(gòu)化數(shù)據(jù),然后計(jì)入到知識(shí)圖譜中。

2.3 圖譜數(shù)據(jù)的設(shè)計(jì)

我們拿到了數(shù)據(jù),就要開始知識(shí)圖譜的設(shè)計(jì)了。設(shè)計(jì)知識(shí)圖譜不僅需要對(duì)業(yè)務(wù)有很深的理解,也需要考慮圖譜的實(shí)用性、高效性。

設(shè)計(jì)知識(shí)圖譜主要是設(shè)計(jì)知識(shí)圖譜的三元組,也就是哪些數(shù)據(jù)是實(shí)體、哪些數(shù)據(jù)是屬性、實(shí)體之間有什么關(guān)系。這個(gè)在設(shè)計(jì)過程中需要很深入的理解,要根據(jù)業(yè)務(wù)需求去設(shè)計(jì)。

在這里提一點(diǎn):實(shí)體是數(shù)據(jù)不是一個(gè)類,比如產(chǎn)品不是實(shí)體,一個(gè)具體的產(chǎn)品名稱是一個(gè)實(shí)體;屬性也是一樣,是一個(gè)具體的值,比如性別不是屬性,男、女才是屬性值;只有關(guān)系是一個(gè)類,比如人的年齡,年齡就是一個(gè)關(guān)系。

除此之外,知識(shí)圖譜設(shè)計(jì)的藝術(shù)性還體現(xiàn)在,實(shí)體和屬性在不同業(yè)務(wù)要求下,可以有不同的定義。

有些實(shí)體可以作為屬性,有些屬性可以作為實(shí)體,也要具體看業(yè)務(wù)需求。比如,年齡數(shù)據(jù),如果不需要跟其他實(shí)體產(chǎn)生關(guān)系可以作為屬性;如果需要產(chǎn)生關(guān)系,就要作為實(shí)體。

在設(shè)計(jì)圖譜的時(shí)候,還要把握哪些數(shù)據(jù)是冗余的、不需要的。因此,作為產(chǎn)品經(jīng)理在做知識(shí)圖譜的設(shè)計(jì)的時(shí)候,最重要的就是這個(gè)三元組的設(shè)計(jì)。

本文由 @羅飛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。

題圖來自 Unsplash ,基于 CC0 協(xié)議

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
干貨 | 知識(shí)圖譜的技術(shù)與應(yīng)用
知識(shí)圖譜在銀行風(fēng)控領(lǐng)域的應(yīng)用方案 | 周末送資料
圖構(gòu)建:領(lǐng)域本體設(shè)計(jì)原則與動(dòng)態(tài)本體
基于數(shù)據(jù)中臺(tái)的圖譜構(gòu)建
思考總結(jié):領(lǐng)域知識(shí)圖譜平臺(tái)構(gòu)建與業(yè)務(wù)應(yīng)用
知識(shí)圖譜簡(jiǎn)介
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服