生成式對抗網(wǎng)絡(luò)(GAN, GenerativeAdversarial Networks )是一種深度學(xué)習(xí)模型,是近年來復(fù)雜分布上無監(jiān)督學(xué)習(xí)的方法之一。模型通過框架中兩個模塊:生成模型(GenerativeModel)和判別模型(Discriminative Model)的互相博弈學(xué)習(xí)產(chǎn)生相當(dāng)好的輸出。原始GAN 理論中,并不要求 G 和 D 都是神經(jīng)網(wǎng)絡(luò),只需要是能擬合相應(yīng)生成和判別的函數(shù)即可。但實用中一般均使用深度神經(jīng)網(wǎng)絡(luò)作為 G 和 D 。一個優(yōu)秀的GAN應(yīng)用需要有良好的訓(xùn)練方法,否則可能由于神經(jīng)網(wǎng)絡(luò)模型的自由性而導(dǎo)致輸出不理想。以AlphaGo為例,其經(jīng)歷了從AlphaGo到AlphaGo Master再到AlphaGo-Zero的過程。其中AlphaGo&AlphaGoMaster依賴人類歷史數(shù)據(jù)訓(xùn)練和自我博弈;AlphaGo-Zero則有了質(zhì)變,不是依賴人類數(shù)據(jù)而是依靠神經(jīng)網(wǎng)絡(luò)自身進化。AlphaGo&AlphaGoMaster通過對歷史棋譜的深度學(xué)習(xí)完成策略網(wǎng)絡(luò)的構(gòu)建,采用深度學(xué)習(xí)技術(shù)訓(xùn)練一種有監(jiān)督學(xué)習(xí)型走棋策略網(wǎng)絡(luò),類似于我們的觀察學(xué)習(xí)獲得的第一反應(yīng)。通過自我對戰(zhàn)強化學(xué)習(xí)來提高博弈水平,采用強化學(xué)習(xí)技術(shù)來優(yōu)化先前的走棋策略網(wǎng)絡(luò),通過自我博弈的強化學(xué)習(xí)迭代結(jié)果,來提升前面的策略網(wǎng)絡(luò)。即與之前的“自己”不間斷訓(xùn)練以提高下棋的水平,這個過程有點類似于人類的鞏固學(xué)習(xí)和理解貫通階段。通過深度回歸學(xué)習(xí)構(gòu)建估值網(wǎng)絡(luò),用來預(yù)測自我博弈強化學(xué)習(xí)數(shù)據(jù)集里局面的預(yù)期結(jié)果,即預(yù)測那個策略網(wǎng)絡(luò)的局面會成為贏家。結(jié)合蒙特卡洛樹(MCTS)搜索壓縮搜索空間,降低了搜索時間復(fù)雜度, MCTS決策有效結(jié)合了策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò),類似于人類的判斷決策過程。AlphaGoZero做了較大改進,一是完全拋棄了歷史棋譜的學(xué)習(xí),訓(xùn)練學(xué)習(xí)從無到有;二是改進了原強化學(xué)習(xí)的形式,只使用一個神經(jīng)網(wǎng)絡(luò)而不是兩個神經(jīng)網(wǎng)絡(luò),通過將這個神經(jīng)網(wǎng)絡(luò)與MCTS搜索算法相結(jié)合,通過左右互搏自娛自樂,按設(shè)定的走棋規(guī)則隨機開始圍棋小白式的學(xué)習(xí),靠激勵、懲罰的強化學(xué)習(xí)機制來糾正學(xué)習(xí)過程中的錯誤,調(diào)整提升學(xué)習(xí)能力。這種機制已經(jīng)很接近完全無監(jiān)督學(xué)習(xí),擺脫了對人類標(biāo)注數(shù)據(jù)的依賴。將“GAN”(生成對抗神經(jīng)網(wǎng)絡(luò))這類機機對抗模式從任務(wù)導(dǎo)向性延伸至邏輯問題或一般性問題研究,此類AI的應(yīng)用將會更加強廣泛。AI投資方向:由小到大,由易到難