注意力機(jī)制(Attention)是近些年來提出的一種改進(jìn)神經(jīng)網(wǎng)絡(luò)的方法,在圖像識(shí)別、自然語言處理和圖網(wǎng)絡(luò)表示等領(lǐng)域都取得了很好的效果,可以說注意力機(jī)制的加入極大地豐富了神經(jīng)網(wǎng)絡(luò)的表示能力。
論文原文:
https://arxiv.org/pdf/1906.01195.pdf
01
論文背景
知識(shí)圖譜(Knowledge Graph)可以用結(jié)構(gòu)化的方式來描述真實(shí)世界的知識(shí),如一個(gè)三元組(小羅伯特·唐尼,國(guó)籍,美國(guó))便能夠說明小羅伯特·唐尼的國(guó)籍是美國(guó)這樣一件事實(shí)。然而這樣的結(jié)構(gòu)化表示并不是很利于計(jì)算,因而近些年來知識(shí)圖譜表示學(xué)習(xí)受到了廣泛的研究。
ConvE[1]和ConvKB[2]等基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的表示學(xué)習(xí)方法可以為知識(shí)圖譜生成更豐富和表現(xiàn)力更強(qiáng)的向量表示,也取得了很好的實(shí)驗(yàn)效果。但是這些模型僅僅獨(dú)立地表示每一個(gè)三元組,而忽略了三元組周圍的鄰居中蘊(yùn)含的復(fù)雜語義信息,這在一定程度上限制了這類模型的性能。為此,今天我們要介紹的這篇論文將注意力機(jī)制引入到了每個(gè)三元組的鄰居中,每個(gè)實(shí)體的表示都與其鄰居息息相關(guān)。值得注意的是,傳統(tǒng)的表示學(xué)習(xí)模型在進(jìn)行實(shí)體鏈接預(yù)測(cè)時(shí),是沒有解釋性的,僅僅可以給出結(jié)果。但是加入了注意力機(jī)制后,我們便可以使用每個(gè)鄰居的注意力權(quán)重為模型的預(yù)測(cè)結(jié)果做出一定的解釋。
02
論文模型
本篇論文的模型大致可以分為兩部分,第一部分為加入注意力機(jī)制的編碼器(Encoder),第二部分為解碼器(Decoder)。論文的重點(diǎn)和主要貢獻(xiàn)便是第一部分,加入注意力機(jī)制的編碼器。
該模型的注意力機(jī)制是基于之前的圖的注意力網(wǎng)絡(luò)(GAT[3]),GAT是GCN[4]的一個(gè)改進(jìn)版本,它解決了GCN平等地從鄰居中獲取信息的缺點(diǎn)。更詳細(xì)的說,GAT會(huì)為一個(gè)節(jié)點(diǎn)的每條邊都學(xué)習(xí)一個(gè)注意力權(quán)重,然后按照這些權(quán)重從鄰居中獲取信息:
在上式中,alpha_ij即是連接i和j兩個(gè)節(jié)點(diǎn)的邊的權(quán)重,N_i是i節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,W為一個(gè)線性映射矩陣,最終該式輸出的便是i節(jié)點(diǎn)的鄰居化表示。
雖然GAT模型在傳統(tǒng)的網(wǎng)絡(luò)表示學(xué)習(xí)中很成功,但是還是不太能直接地應(yīng)用到知識(shí)圖譜中,因?yàn)樗@然地忽略了邊所蘊(yùn)含的信息。在知識(shí)圖譜中,一個(gè)實(shí)體在鏈接不同的邊時(shí)往往有著不同的含義,如上圖所示,Christopher Nolan在鏈接不同的邊時(shí)可以有兄長(zhǎng)或?qū)а莸暮x。因而該篇論文在GAT的基礎(chǔ)上進(jìn)行了改進(jìn),加入了關(guān)系的信息。對(duì)于每一個(gè)三元組,學(xué)習(xí)一個(gè)表示如下:
其中h_i,h_j和g_k分別為頭尾實(shí)體以及關(guān)系的向量表示,W_1為線性變換矩陣。之后經(jīng)過一個(gè)LeakyRelu非線性層,可以得到:
之后可以計(jì)算每個(gè)三元組的注意力權(quán)重:
這里N_i為實(shí)體i的鄰居節(jié)點(diǎn),R_in為鏈接實(shí)體i和n的關(guān)系。此外該模型還加入了multi-head attention機(jī)制,可以使學(xué)習(xí)過程更加穩(wěn)定,并且學(xué)習(xí)更多的鄰居信息。最終每個(gè)實(shí)體的鄰居表示為:
這里M便是代表有M個(gè)獨(dú)立的注意力計(jì)算機(jī)制,對(duì)于關(guān)系向量,原論文僅將其乘以一個(gè)線性變換矩陣,未再加入注意力機(jī)制。
此外,在學(xué)習(xí)實(shí)體的鄰居表示時(shí),我們損失了實(shí)體初始的向量表示,因而在最終輸出之前,會(huì)將初始的向量表示乘以一個(gè)變換矩陣加實(shí)體的鄰居表示中。最終模型圖如下,其中黃色的圓圈代表初始的實(shí)體向量,綠色圓圈代表初始的關(guān)系向量。原作者的模型圖畫的有些不清晰明了,若要詳細(xì)了解還需閱讀論文:
論文使用ConvKB作為模型的解碼器(Decoder),對(duì)于每一個(gè)三元組,在上述編碼器得到實(shí)體和關(guān)系向量的基礎(chǔ)上,做出如下打分:
其中omega^m為第m個(gè)卷積核,模型最終使用soft-margin loss進(jìn)行訓(xùn)練。
03
論文實(shí)驗(yàn)
該論文在FB15K-237、WN18RR、NELL-995和Kinship等數(shù)據(jù)集上進(jìn)行了鏈接預(yù)測(cè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下所示。從表中可以看出,在多數(shù)情況下該模型可以達(dá)到目前最佳的實(shí)驗(yàn)效果,這說明融合鄰居信息的表示能夠很好的提升模型的性能,注意力機(jī)制對(duì)于知識(shí)圖譜也是很有效果的。
參考文獻(xiàn)
[1] Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2d knowledge graph embeddings[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
[2] Nguyen D Q, Nguyen T D, Nguyen D Q, et al. A novel embedding model for knowledge base completion based on convolutional neural network[J]. arXiv preprint arXiv:1712.02121, 2017.
[3] Veli?kovi? P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.
[4] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
學(xué)術(shù)頭條已建立微信交流群,想進(jìn)群的同學(xué)請(qǐng)加學(xué)術(shù)君微信:AMiner308,記得備注:名字+單位/學(xué)校噢!
分享干貨
聯(lián)系客服