點擊上方 關(guān)注我們
本文關(guān)注圖上的不平衡問題,介紹三篇前沿論文,希望能夠給大家的研究帶來一些思考和幫助,
他們分別是:
1. KDD'21 ImGAGN: Imbalanced Network Embedding via Generative Adversarial Graph Networks
2. NeurIPS'21 Topology-Imbalance Learning for Semi-Supervised Node Classification
3. KDD'21 Tail-GNN: Tail-Node Graph Neural Networks
1.通過生成對抗圖網(wǎng)絡(luò)嵌入的不平衡網(wǎng)絡(luò)(KDD2021)
ImGAGN: Imbalanced Network Embedding via Generative Adversarial Graph Networks
https://dl.acm.org/doi/10.1145/3447548.3467334
作者:Liang Qu, Huaisheng Zhu, Ruiqi Zheng, Yuhui Shi, Hongzhi Yin
Code: https://github.com/Leo-Q-316/ImGAGN
圖上的不平衡分類是普遍存在的,但在許多現(xiàn)實世界的應(yīng)用(如欺詐節(jié)點檢測)中具有挑戰(zhàn)性。近年來,圖神經(jīng)網(wǎng)絡(luò)在許多網(wǎng)絡(luò)分析任務(wù)中顯示出良好的性能。然而,現(xiàn)有的GNN大多只關(guān)注平衡網(wǎng)絡(luò),在不平衡網(wǎng)絡(luò)上的性能不理想。為了彌補這一缺陷,本文提出了生成式對抗圖網(wǎng)絡(luò)模型ImGAGN來解決圖上的不平衡分類問題。介紹了一種新的圖結(jié)構(gòu)數(shù)據(jù)生成器GraphGenerator,它可以通過生成一組合成的少數(shù)節(jié)點來模擬少數(shù)類節(jié)點的屬性分布和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分布,從而使不同類中的節(jié)點數(shù)量達(dá)到均衡。然后訓(xùn)練一個圖卷積網(wǎng)絡(luò)(GCN)識別器來區(qū)分合成平衡網(wǎng)絡(luò)上的真實節(jié)點和虛假節(jié)點(即生成節(jié)點),以及少數(shù)節(jié)點和多數(shù)節(jié)點。為了驗證該方法的有效性,在四個真實的不平衡網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行了大量的實驗。實驗結(jié)果表明,在半監(jiān)督不平衡節(jié)點分類任務(wù)中,該方法優(yōu)于現(xiàn)有的算法。
2. 基于結(jié)構(gòu)的不平衡圖學(xué)習(xí)
論文標(biāo)題:
Topology-Imbalance Learning for Semi-Supervised Node Classification
論文鏈接:
https://arxiv.org/abs/2110.04099
代碼鏈接:
https://github.com/victorchen96/renode
論文作者:
陳德里,林衍凱,趙光香,任宣丞,李鵬,周杰,孫栩
類別不均衡(Class Imbalance)是真實場景中非常常見的問題,受到了學(xué)界和業(yè)界非常多的關(guān)注。一般在我們提及類別不均衡時,默認(rèn)指的是數(shù)量不均衡:即不同類中訓(xùn)練樣本數(shù)量的不一致帶來的模型于不同類別學(xué)習(xí)能力的差異,由此引起的一個嚴(yán)重問題是模型的決策邊界會主要由數(shù)量多的類來決定 。
但是在圖結(jié)構(gòu)中,不同類別的訓(xùn)練樣本不僅有在數(shù)量上的差異,也有在位置結(jié)構(gòu)上的差異。這就使得圖上的類別不均衡問題有了一個獨特的來源:拓?fù)洳痪?/strong>。而目前學(xué)界缺乏對于拓?fù)洳痪庀嚓P(guān)問題的研究。這個工作最主要的動機就是研究拓?fù)洳痪獾奶攸c,危害以及解決方法,希望能夠引起社區(qū)對拓?fù)洳痪鈫栴}的重視。
在設(shè)計拓?fù)洳痪夥椒ㄖ?,本文作者首先在思考拓?fù)洳痪獾慕鉀Q方法應(yīng)該滿足什么要求?考慮到拓?fù)洳痪鈫栴}的普遍性,以及現(xiàn)有的 GNN 模型缺乏對其的特殊設(shè)計和考慮,解決方案應(yīng)該盡可能的兼容眾多已有的 GNN 結(jié)構(gòu)。同時針對于拓?fù)洳痪獾姆椒☉?yīng)該盡可能和已有的數(shù)量不均衡方法兼容,從而更加全面完整的解決圖上不均衡問題。此外,所設(shè)計的方法給模型訓(xùn)練帶來的額外開銷應(yīng)該盡可能小,并能夠適用于幾百萬節(jié)點的超大規(guī)模圖結(jié)構(gòu)。
基于這些考慮,作者提出了用于解決拓?fù)洳痪鈫栴}的 ReNode 框架(如圖 1 所示)。整個框架包括兩個步驟:
1. 標(biāo)注節(jié)點的拓?fù)涠ㄎ唬?/strong>計算節(jié)點到類邊界的遠(yuǎn)近(Totoro 指標(biāo));
2. 標(biāo)注節(jié)點訓(xùn)練權(quán)重 Re-Weight:減少靠近類邊界節(jié)點的訓(xùn)練權(quán)重,增加靠近類中心節(jié)點的訓(xùn)練權(quán)重。
ReNode 是基于每個標(biāo)注節(jié)點到其類邊界的距離的遠(yuǎn)近進(jìn)行 instance-level 的重新加權(quán)。通過 ReNode 方法,靠近類別邊界位置的、容易引起決策邊界偏移的訓(xùn)練節(jié)點的權(quán)重被減少,而靠近類別中心位置的訓(xùn)練節(jié)點權(quán)重增大。這就使得節(jié)點的影響力邊界和真實的類別邊界更加重合,減少了因為拓?fù)浣Y(jié)構(gòu)不均衡引起的決策邊界偏移問題。
3. 提高尾結(jié)點嵌入的圖神經(jīng)網(wǎng)絡(luò)
Tail-GNN: Tail-Node Graph Neural Networks
KDD 2021
https://zemin-liu.github.io/papers/Tail-GNN-KDD-21.pdf
https://github.com/shuaiOKshuai/Tail-GNN
作者
Liu, Zemin and Nguyen, Trung-Kien and Fang, Yuan
目前,許多領(lǐng)域中的圖在其節(jié)點度上都遵循長尾分布,即大多數(shù)節(jié)點為具有小度的尾結(jié)點。盡管圖神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)節(jié)點表征,但它們統(tǒng)一對待所有節(jié)點,而沒有關(guān)注到大量的尾節(jié)點。同時,尾節(jié)點的結(jié)構(gòu)信息(如鏈接信息)較少,從而導(dǎo)致性能較差。故本文提出了一種新穎的圖神經(jīng)網(wǎng)絡(luò):Tail-GNN,以提高尾結(jié)點嵌入的魯棒性。圖1展示了長尾節(jié)點的分布,以及尾節(jié)點缺失的鏈接。
為了增強尾節(jié)點的表征學(xué)習(xí),本文提出了一種名為鄰域轉(zhuǎn)化的新概念,在此基礎(chǔ)上,進(jìn)一步設(shè)計了一種從頭結(jié)點到尾節(jié)點的知識轉(zhuǎn)移。具體如圖2所示。
通常,節(jié)點與其鄰居節(jié)點之間緊密的結(jié)構(gòu)連接產(chǎn)生了它們之間的聯(lián)系,特別地,GNN與其他基于圖的方法都假定節(jié)點與其相鄰節(jié)點相似。例如,如圖2(a)所示,對v0及其鄰居,使用生物學(xué)關(guān)鍵詞來描述,而對節(jié)點v6,則使用計算機科學(xué)關(guān)鍵詞來描述。本文利用轉(zhuǎn)化操作對節(jié)點v與其鄰域Nv之間的關(guān)系進(jìn)行建模,以模擬鄰域中缺失的信息。形式上,設(shè)hv表示頭節(jié)點v的節(jié)點嵌入向量,并設(shè)
表示v的鄰域Nv的嵌入向量,其可以通過對v的鄰域嵌入向量進(jìn)行池化操作來得到,可表示為:其中,rv為翻譯向量,其可以被一個可學(xué)習(xí)模型預(yù)測,該模型在下部分會具體闡述。
基于頭尾轉(zhuǎn)移預(yù)測丟失的鄰域信息
本文通過將鄰域轉(zhuǎn)化的知識從頭節(jié)點轉(zhuǎn)移到尾節(jié)點以發(fā)現(xiàn)缺失的鄰域信息。
1 頭節(jié)點的鄰域
由于頭節(jié)點在圖中連接良好,故假設(shè)其鄰域完整且有代表性,則鄰域轉(zhuǎn)化自然存在于頭節(jié)點及其鄰域內(nèi)。因此,可直接學(xué)習(xí)模型以預(yù)測頭節(jié)點的轉(zhuǎn)化向量。
2 尾節(jié)點鄰域
相反,由于各種原因,尾節(jié)點在結(jié)構(gòu)上受到了限制,從而導(dǎo)致了一個小的可觀測鄰域,即在GNN中,尾節(jié)點的觀測鄰域可能不足以代表有意義的聚合。因此,必須找出尾節(jié)點缺失的鄰域信息。具體來說,尾節(jié)點v的缺失信息,可被mv表示,而mv則由其理想鄰域
以及觀測鄰域Nv的嵌入向量之間的差異給定。表示為:此處,理想鄰域不僅包含觀測鄰域,還包含可以鏈接到v的節(jié)點,理想鄰域與觀測鄰域以及缺失鄰域之間的關(guān)系如圖2(c)所示。
3 預(yù)測缺失信息
為了計算式2,需要首先預(yù)測未知的理想鄰域表征。具體來說,可以對頭節(jié)點和尾節(jié)點利用統(tǒng)一的轉(zhuǎn)化模型,以得出它們的理想鄰域。對于頭節(jié)點,由于它的觀測鄰域已經(jīng)是理想的,故只需學(xué)習(xí)預(yù)測式1中的轉(zhuǎn)化向量rv;而對于尾節(jié)點,則為轉(zhuǎn)化模型應(yīng)用預(yù)測模型以構(gòu)造理想模型,從而將知識從頭節(jié)點轉(zhuǎn)移到尾節(jié)點??杀硎緸椋?/p>
其中,轉(zhuǎn)化向量rv由從頭節(jié)點學(xué)習(xí)得來的轉(zhuǎn)化模型學(xué)習(xí)而得到。尾節(jié)點的缺失鄰域則可表示為:
小編:從現(xiàn)在的研究看,這個問題還不是很成熟,預(yù)祝各位同學(xué)能夠卷到一口湯喝~
聯(lián)系客服