国产盗摄精品一区二区,国产一区二区福利久久,久久久精品免费国产四虎

Ultra-Scalable Spectral Clustering and Ensemble Clustering

2019.09.11

Ultra-Scalable Spectral Clustering and Ensemble Clustering

1.Abstract:

在U-SPEC中，針對稀疏相似子矩陣的構(gòu)造，提出了一種混合代表選擇策略和k -最近鄰代表的快速逼近方法。將稀疏相似子矩陣解釋為二部圖，利用轉(zhuǎn)移割對圖進行有效分割，得到聚類結(jié)果:

在U-SENC中，多個U-SPEC聚類器被進一步集成到一個集成聚類框架中，在保持高效的同時增強了U-SPEC的魯棒性。基于多U-SEPC s的集成生成，構(gòu)造了一種新的目標(biāo)與基簇之間的二部圖，并對其進行有效分割，達到了一致的聚類結(jié)果

U-SPEC和U-SENC都具有近乎線性的時間和空間復(fù)雜度

?

2.Inrtoduction

譜聚類算法因其在處理非線性可分?jǐn)?shù)據(jù)集方面具有良好的處理能力，然而，傳統(tǒng)光譜聚類的一個關(guān)鍵限制是其巨大的時間和空間復(fù)雜度;譜聚類的通常包括兩個耗時和消耗內(nèi)存的階段，即相似矩陣構(gòu)建和特征分解。構(gòu)建相似矩陣一般需要

時間和

內(nèi)存，求解特征分解問題需要

時間和

內(nèi)存，其中N為數(shù)據(jù)大小，d為維度。隨著數(shù)據(jù)量N的增加，譜聚類的計算量也隨之增加。

為了減輕譜聚類的巨大計算負擔(dān)，常用的策略是：1.稀疏化相似矩陣，用稀疏的特征解算器求解特征分解問題。矩陣稀疏化策略可以降低存儲矩陣的內(nèi)存成本，便于特征分解，但仍然需要計算原相似矩陣中的所有項。2.是基于子矩陣構(gòu)造：從原始數(shù)據(jù)集中隨機選擇p個代表，構(gòu)建一個n*p相似子矩陣，landmark based spectral clustering(LSC)方法對數(shù)據(jù)集執(zhí)行k-means，得到p個聚類中心作為p個代表。然而，這些基于子矩陣的譜聚類方法通常受到復(fù)雜度瓶頸(N*p)的限制，這是它們處理超大規(guī)模數(shù)據(jù)集的一個關(guān)鍵障礙，在超大規(guī)模數(shù)據(jù)集中，為了獲得更好的近似通常需要更大的p。此外，這些方法的聚類結(jié)果嚴(yán)重依賴于子矩陣的一次逼近（逼近實際的n*n矩陣），這對聚類魯棒性造成了不穩(wěn)定因素。

本文提出了兩種新的大規(guī)模算法，即超可伸縮譜聚類(U-SPEC)和超可伸縮集成聚類(U-SENC)。在U-SPEC中，提出了一種新的混合代表選擇策略，有效地找到一組p個代表，降低了基于k均值的選擇從

到

的時間復(fù)雜度。然后，設(shè)計了一種 K-nearest 的快速逼近方法，有效地建立了一個具有

時間和

內(nèi)存的稀疏子矩陣。稀疏的子矩陣作為cross-affinity矩陣,構(gòu)造bipartite graph之間的數(shù)據(jù)集和代表集。通過兩部圖結(jié)構(gòu)transfer cut解決矩陣分解計算量過大的問題, 最后，采用k均值離散化方法構(gòu)造了一組k個特征向量的聚類結(jié)果，該方法耗時

。集成：此外，為了超越U-SPEC的一次性逼近，提供更好的聚類魯棒性，提出了U-SENC算法，將多個U-SPEC聚類器集成到一個統(tǒng)一的集成聚類框架中，該框架的時間和空間復(fù)雜度主要由

和

控制。

即：

新的混合代表選擇策略：找出p個代表

K-nearest 的快速逼近方法：建立了一個np稀疏子矩陣

bipartite graph 的 transfer cut：將np子矩陣解釋為二部圖，并對其進行有效分割，得到最終的聚類結(jié)果

?

3.PROPOSED FRAMEWORK

3.1新的混合代表選擇策略：

FIG1:圖a紅點為隨機選擇的代表點，圖b為k_means質(zhì)心選擇出來的代表點，圖c為混合方法結(jié)果

隨機的代表選擇雖然計算效率高，但固有的隨機性可能導(dǎo)致一組低質(zhì)量的代表；而k_means耗時；而混合方法是先從總數(shù)據(jù)集中隨機抽出一部分?jǐn)?shù)據(jù)，再在抽出的部分?jǐn)?shù)據(jù)中用k_means學(xué)出p個質(zhì)心作為代表.如圖2。

3.2 Approximation of K-Nearest Representatives

得到p個代表后，下一個目標(biāo)是通過p個代表對整個數(shù)據(jù)集的兩兩關(guān)系進行編碼，

以往方法子矩陣表示中，對象與代表之間的Np相似子矩陣需要O(Npd)時間和O(Np)內(nèi)存；后來提出用K-Nearest稀疏np相似度矩陣(每個對象只與其k個最近的代表相連接)，然而，這仍然需要計算N個對象到p個代表之間的所有距離。此外，除了計算Np項總數(shù)外，稀疏化步驟還消耗O(NpK)時間；(Ps:注意傳統(tǒng)的knn與K-Nearest 有共同特征，但在實際應(yīng)用中面臨不同問題；在子矩陣構(gòu)造問題中傳統(tǒng)knn不適用，因為結(jié)構(gòu)的不平衡p遠遠小于N.)

?

為了打破效率瓶頸，這里的關(guān)鍵問題是如何在用K-Nearest的代表構(gòu)建子矩陣時，顯著減少這些中間項的計算.我們提出了一種基于由粗到細機制的K-Nearest表示逼近方法，并用該方法建立了稀疏親和子矩陣

:我們的k -最近鄰代表近似的主要思想是先找到最近鄰的區(qū)域（將p個代表點聚類，計算樣本和P個聚類中心的距離選出最近的簇），然后在最近鄰的區(qū)域內(nèi)找到最近的代表(定義為

)（在最近的代表簇中計算出最近的點），最后在

的鄰域內(nèi)找到k -最近鄰代表（在最近的點附近k個值作為選中的點）。

?

3.3 Bipartite Graph Partitioning

：第j個代表

：第i個樣本

這部分待續(xù)

來源：https://www.icode9.com/content-4-448401.html

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。