Ultra-Scalable Spectral Clustering and Ensemble Clustering
1.Abstract:
在U-SPEC中,針對稀疏相似子矩陣的構(gòu)造,提出了一種混合代表選擇策略和k -最近鄰代表的快速逼近方法。將稀疏相似子矩陣解釋為二部圖,利用轉(zhuǎn)移割對圖進行有效分割,得到聚類結(jié)果:
在U-SENC中,多個U-SPEC聚類器被進一步集成到一個集成聚類框架中,在保持高效的同時增強了U-SPEC的魯棒性。基于多U-SEPC s的集成生成,構(gòu)造了一種新的目標(biāo)與基簇之間的二部圖,并對其進行有效分割,達到了一致的聚類結(jié)果
U-SPEC和U-SENC都具有近乎線性的時間和空間復(fù)雜度
?
2.Inrtoduction
譜聚類算法因其在處理非線性可分?jǐn)?shù)據(jù)集方面具有良好的處理能力,然而,傳統(tǒng)光譜聚類的一個關(guān)鍵限制是其巨大的時間和空間復(fù)雜度;譜聚類的通常包括兩個耗時和消耗內(nèi)存的階段,即相似矩陣構(gòu)建和特征分解。構(gòu)建相似矩陣一般需要
時間和內(nèi)存,求解特征分解問題需要時間和內(nèi)存,其中N為數(shù)據(jù)大小,d為維度。隨著數(shù)據(jù)量N的增加,譜聚類的計算量也隨之增加。為了減輕譜聚類的巨大計算負擔(dān),常用的策略是:1.稀疏化相似矩陣,用稀疏的特征解算器求解特征分解問題。矩陣稀疏化策略可以降低存儲矩陣的內(nèi)存成本,便于特征分解,但仍然需要計算原相似矩陣中的所有項。2.是基于子矩陣構(gòu)造:從原始數(shù)據(jù)集中隨機選擇p個代表,構(gòu)建一個n*p相似子矩陣,landmark based spectral clustering(LSC)方法對數(shù)據(jù)集執(zhí)行k-means,得到p個聚類中心作為p個代表。然而,這些基于子矩陣的譜聚類方法通常受到復(fù)雜度瓶頸(N*p)的限制,這是它們處理超大規(guī)模數(shù)據(jù)集的一個關(guān)鍵障礙,在超大規(guī)模數(shù)據(jù)集中,為了獲得更好的近似通常需要更大的p。此外,這些方法的聚類結(jié)果嚴(yán)重依賴于子矩陣的一次逼近(逼近實際的n*n矩陣),這對聚類魯棒性造成了不穩(wěn)定因素。
本文提出了兩種新的大規(guī)模算法,即超可伸縮譜聚類(U-SPEC)和超可伸縮集成聚類(U-SENC)。在U-SPEC中,提出了一種新的混合代表選擇策略,有效地找到一組p個代表,降低了基于k均值的選擇從
到的時間復(fù)雜度。 然后,設(shè)計了一種 K-nearest 的快速逼近方法,有效地建立了一個具有時間和內(nèi)存的稀疏子矩陣。稀疏的子矩陣作為cross-affinity矩陣,構(gòu)造bipartite graph之間的數(shù)據(jù)集和代表集。通過兩部圖結(jié)構(gòu)transfer cut解決矩陣分解計算量過大的問題, 最后,采用k均值離散化方法構(gòu)造了一組k個特征向量的聚類結(jié)果,該方法耗時。集成:此外,為了超越U-SPEC的一次性逼近,提供更好的聚類魯棒性,提出了U-SENC算法,將多個U-SPEC聚類器集成到一個統(tǒng)一的集成聚類框架中,該框架的時間和空間復(fù)雜度主要由和控制。即:
新的混合代表選擇策略:找出p個代表
K-nearest 的快速逼近方法:建立了一個np稀疏子矩陣
bipartite graph 的 transfer cut:將np子矩陣解釋為二部圖,并對其進行有效分割,得到最終的聚類結(jié)果
?
3.PROPOSED FRAMEWORK
3.1新的混合代表選擇策略:
FIG1:圖a紅點為隨機選擇的代表點,圖b為k_means質(zhì)心選擇出來的代表點,圖c為混合方法結(jié)果
隨機的代表選擇雖然計算效率高,但固有的隨機性可能導(dǎo)致一組低質(zhì)量的代表;而k_means耗時;而混合方法是先從總數(shù)據(jù)集中隨機抽出一部分?jǐn)?shù)據(jù),再在抽出的部分?jǐn)?shù)據(jù)中用k_means學(xué)出p個質(zhì)心作為代表.如圖2。
3.2 Approximation of K-Nearest Representatives得到p個代表后,下一個目標(biāo)是通過p個代表對整個數(shù)據(jù)集的兩兩關(guān)系進行編碼,
以往方法子矩陣表示中,對象與代表之間的Np相似子矩陣需要O(Npd)時間和O(Np)內(nèi)存;后來提出用K-Nearest稀疏np相似度矩陣(每個對象只與其k個最近的代表相連接),然而,這仍然需要計算N個對象到p個代表之間的所有距離。此外,除了計算Np項總數(shù)外,稀疏化步驟還消耗O(NpK)時間;(Ps:注意傳統(tǒng)的knn與K-Nearest 有共同特征,但在實際應(yīng)用中面臨不同問題;在子矩陣構(gòu)造問題中傳統(tǒng)knn不適用,因為結(jié)構(gòu)的不平衡p遠遠小于N.)
?
為了打破效率瓶頸,這里的關(guān)鍵問題是如何在用K-Nearest的代表構(gòu)建子矩陣時,顯著減少這些中間項的計算.我們提出了一種基于由粗到細機制的K-Nearest表示逼近方法,并用該方法建立了稀疏親和子矩陣
:我們的k -最近鄰代表近似的主要思想是先找到最近鄰的區(qū)域(將p個代表點聚類,計算樣本和P個聚類中心的距離 選出最近的簇),然后在最近鄰的區(qū)域內(nèi)找到最近的代表(定義為
)(在最近的代表簇中計算出最近的點),最后在的鄰域內(nèi)找到k -最近鄰代表(在最近的點附近k個值作為選中的點)。?
3.3 Bipartite Graph Partitioning
:第j個代表:第i個樣本這部分待續(xù)
來源:https://www.icode9.com/content-4-448401.html聯(lián)系客服